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Предисловие 


В течение последнего десятилетия наблюдался неуклонный рост инте¬ 
реса к регулярным выражениям. На сегодняшний день все популярные 
языки программирования включают мощные библиотеки поддержки 
этого инструмента или даже имеют реализацию этой поддержки, встро¬ 
енную непосредственно в сам язык. Многие разработчики, опираясь на 
поддержку регулярных выражений, предоставляют пользователям сво¬ 
их приложений возможность поиска или фильтрации данных с их по¬ 
мощью. Регулярные выражения присутствуют практически везде. 

Издано множество книг, помогающих освоить регулярные выражения. 
Большинство из них прекрасно справляются с задачей описания их син¬ 
таксиса, дополнительно предоставляя некоторые примеры и справоч¬ 
ную информацию. Но среди них нет такой, которая демонстрировала бы 
основанные на использовании регулярных выражений решения для 
широкого круга практических задач, связанных с обработкой текста, 
возникающих в разнообразных интернет-приложениях. Мы, Стив и Ян, 
решили данной книгой восполнить этот пробел. 

Мы ставили своей целью показать, как можно применять регулярные 
выражения в ситуациях, в которых те, кто имеет недостаточный опыт 
работы с этим инструментом, могли бы решить, что их применить не¬ 
возможно, а искушенные программисты могли бы посчитать, что для 
решения подобных задач не стоит их использовать. Поскольку в настоя¬ 
щее время регулярные выражения получили повсеместную поддержку, 
они часто оказываются удобным инструментом, который может приме¬ 
няться конечными пользователями даже без посредничества програм¬ 
мистов. Да и сами программисты могут сэкономить время, используя 
регулярные выражения для решения задач извлечения и изменения 
информации, не тратя сил и времени на создание соответствующего 
процедурного программного кода или изучение описаний возможно¬ 
стей различных вспомогательных библиотек. 

Проблемы, связанные 
с многообразием версий 

Как и для любых других инструментов, популярных в мире информа¬ 
ционных технологий, существует множество различных реализаций 
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поддержки регулярных выражении, обладающих различной степенью 
совместимости. В результате это привело к появлению множества раз¬ 
личных диалектов регулярных выражений, которые не всегда одина¬ 
ково интерпретируют одно и то же регулярное выражение, если вообще 
способны его интерпретировать. 

Во многих книгах отмечается наличие диалектов и указываются неко¬ 
торые из их отличий. Но нередко какие-то диалекты в определенных си¬ 
туациях вообще не упоминаются, особенно если в этих диалектах отсут¬ 
ствуют какие-то возможности, тогда как можно было бы показать аль¬ 
тернативное решение или обходной путь. Это становится препятствием, 
когда приходится работать с разными диалектами регулярных выраже¬ 
ний в различных приложениях или языках программирования. 

Отдельные заявления, встречающиеся в литературе, такие как «в на¬ 
стоящее время все используют регулярные выражения в стиле языка 
Регі», к сожалению, выводят из рассмотрения широкий круг несовмес¬ 
тимостей. Даже между пакетами реализации регулярных выражений 
«в стиле языка Регі» имеются существенные различия, к тому же сам 
язык Регі непрерывно развивается дальше. Чрезмерно упрощенное осве¬ 
щение проблемы может приводить к тому, что программист будет прово¬ 
дить часы бесплодных поисков в отладчике, вместо того чтобы исследо¬ 
вать особенности используемой реализации регулярных выражений. 
И даже когда он обнаружит, что та или иная особенность отсутствует 
в реализации, он не будет знать, как обойти этот недостаток. 

Данная книга является первой, где на всем протяжении наиболее рас¬ 
пространенные и обладающие богатыми возможностями диалекты ре¬ 
гулярных выражений рассматриваются параллельно. 

Для кого написана эта книга 

Издание предназначено для тех, кто постоянно работает с текстовой ин¬ 
формацией на компьютере, то есть обрабатывает огромные массивы до¬ 
кументов, работает с текстом в текстовых редакторах или разрабатывает 
программное обеспечение, реализующее анализ и управление текстовой 
информацией. Регулярные выражения являются превосходным инстру¬ 
ментом для решения таких задач. Эта книга содержит все, что необходи¬ 
мо знать об этом инструменте. От читателя не требуется наличие какого- 
либо опыта работы с регулярными выражениями, потому что в книге 
объясняются даже самые основные их положения. 

Если вы уже знакомы с регулярными выражениями, то найдете здесь 
множество подробностей, о которых часто умалчивают другие книги 
или электронные издания. Если вам уже приходилось сталкиваться с си¬ 
туацией, когда одно и то же регулярное выражение работает в одном при¬ 
ложении, но не работает в другом, вы найдете весьма ценным подробное 
описание семи диалектов наиболее распространенных регулярных вы¬ 
ражений, представленное в этой книге. Мы организовали книгу как 
сборник рецептов, поэтому вы можете начинать чтение непосредственно 
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с интересующей вас темы. А если вы прочтете это издание от корки до 
корки, то станете мастером регулярных выражений мирового уровня. 

Эта книга даст вам все необходимые сведения о регулярных выражени¬ 
ях, даже если вы не занимаетесь программированием. Если вам требу¬ 
ется использовать регулярные выражения в текстовом редакторе, в ин¬ 
струменте поиска или в каком-либо другом приложении, где имеется 
поле ввода с надписью «ге&ех» (регулярное выражение), вы можете при¬ 
ступать к чтению этой книги, даже не обладая опытом программирова¬ 
ния. В большинстве рецептов, которые приводятся в книге, даны реше¬ 
ния, основанные исключительно на применении одного или несколь¬ 
ких регулярных выражений. 

Для программистов в главе 3 приводятся полные сведения, необходи¬ 
мые для реализации регулярных выражений в исходном программном 
коде. Данная глава предполагает, что читатель обладает знаниями об 
основных особенностях выбранного им языка программирования, но 
не требует наличия опыта использования регулярных выражений в ис¬ 
ходном программном коде. 

Охватываемые технологии 

.ЫЕТ, Заѵа, ^ѵаЗсгірЪ, РСКЕ, Регі, РуНюп и КиЬу - это не просто бро¬ 
ские названия. Они представляют семь диалектов регулярных выраже¬ 
ний, рассматриваемых в данной книге. Мы в равной степени уделим 
внимание всем семи диалектам. В особенности мы позаботимся о том, 
чтобы указать все несовместимости, существующие между ними, кото¬ 
рые нам удалось обнаружить. 

Глава, имеющая отношение к программированию (глава 3), содержит 
листинги исходных текстов на языках С#, Заѵа, ^ѵаЗсгірІ, РНР, Регі, 
РуіЬоп, КиЬу и ѴВ.ЫЕТ. Здесь также для каждого рецепта приводятся 
решения и их описания для всех восьми языков. Поскольку это приво¬ 
дит к тому, что в главе многое повторяется не один раз, вы легко можете 
пропускать обсуждения, связанные с языками программирования, ко¬ 
торые вас не интересуют, - достаточно следить за тем, что относится 
к выбранному вами языку. 

Организация книги 

В первых трех главах описываются наиболее ценные инструменты и да¬ 
ются основные сведения, позволяющие начать использование регуляр¬ 
ных выражений. Каждая последующая глава представляет различные 
регулярные выражения, подробно исследуя какой-то один круг задач 
обработки текста. 

Глава 1 «Введение в регулярные выражения» объясняет назначение ре¬ 
гулярных выражений и знакомит с набором инструментов, способных 
облегчить их изучение, создание и отладку. 
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Глава 2 «Основные навыки владения регулярными выражениями» опи¬ 
сывает каждый элемент и каждую особенность регулярных выражений, 
а также содержит рекомендации по их эффективному использованию. 
Она представляет собой полный учебник по регулярным выражениям. 

Глава 3 «Программирование с применением регулярных выражений» 
демонстрирует приемы программирования и содержит листинги с ис¬ 
ходными текстами на всех языках программирования, описываемых 
в этой книге, где используются регулярные выражения. 

Глава 4 «Проверка и форматирование» содержит рецепты обработки 
информации, вводимой пользователем, такой как даты, номера телефо¬ 
нов и почтовые индексы, используемые в разных странах. 

В главе 5 «Слова, строки и специальные символы» рассматриваются наи¬ 
более типичные задачи обработки текста, такие как проверка наличия 
или отсутствия в строках определенных слов. 

В главе 6 «Числа» показывается, как определять целые и вещественные 
числа при вводе в различных форматах. 

Глава 7 «Исходный код и файлы журналов» представляет строитель¬ 
ные блоки для синтаксического анализа исходного программного кода 
и других текстовых документов, а также показывает, как с помощью 
регулярных выражений обрабатывать файлы журналов. 

Глава 8 «ГГКЬ, пути и адреса в Интернете» демонстрирует, как анализи¬ 
ровать и манипулировать строками, часто используемыми в Интернете 
и в системе 'ѴѴіпсІохѵз в процессе поиска. 

Глава 9 «Разметка и обмен данными» охватывает приемы манипулиро¬ 
вания текстом в форматах НТМЬ, ХМЬ, С8Ѵ (сошша-зерагаѣесі ѵаіиез - 
данные, разделенные запятыми) и конфигурационными файлами в фор¬ 
мате ШІ. 

Типографские соглашения 

В этой книге используются следующие типографские соглашения: 
Курсив 

Курсивом выделяются новые термины, адреса ГГКЬ, адреса элект¬ 
ронной почты, имена и расширения файлов. 

Моноширинный шрифт 

Используется для представления листингов программ, элементов 
программного кода, таких как имена переменных или функций, зна¬ 
чений, возвращаемых в результате применения регулярных выраже¬ 
ний, а также обрабатываемых элементов или текста, к которым при¬ 
меняется регулярное выражение. Это может быть содержимое стро¬ 
ковой переменной, поля ввода в приложении или файла на диске. 
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Моноширинный курсивный шрифт 

Используется для представления текста, который должен замещать¬ 
ся значениями, вводимыми пользователем, или для представления 
значений, определяемых контекстом. 

<Регулярное*выражение) 

Так представляются регулярные выражения сами по себе или в том 
виде, в каком они вводятся в поле ввода в приложениях. Пробелы 
внутри регулярных выражений обозначаются серыми кружочками, 
чтобы сделать их более заметными. Пробелы не выделяются серыми 
кружками в режиме свободного форматирования (ітее-зрасіп^ то- 
сіе), в котором пробелы игнорируются. 

«Замещаемый^текст» 

Так будет представлен текст, соответствующий регулярному выра¬ 
жению, который будет замещен при выполнении операции поиска 
с заменой. Пробелы в замещаемом тексте обозначаются серыми кру¬ 
жочками, чтобы сделать их более заметными. 

Совпавший текст 

Так будет представлен фрагмент текста, соответствующий регуляр¬ 
ному выражению. 


Многоточие внутри регулярных выражений указывает место, кото¬ 
рое должно быть заполнено вами, прежде чем вы сможете воспользо¬ 
ваться ими. Сопутствующий текст поясняет, что должно быть под¬ 
ставлено вместо многоточия. 


СВ, 1_Р и СВІ_Р 


Обозначения СК, ЬГ и СКЪГ в рамках представляют фактические 
разрывы текстовых строк, а не специальные экранированные после¬ 
довательности, такие как \г, \п и \г\п. Такие строки могут создавать¬ 
ся в многострочных полях ввода нажатием клавиши Епііег, или при 
использовании многострочных строковых констант в исходных тек¬ 
стах программ, таких как строковые литералы в языке С#, или 
в строках, окруженных тройными кавычками, в языке РуЙюп. 


Эта стрелка, имеющаяся на клавише Кеіигп или Еп1:ег, говорит о том, 
что текст был перенесен исключительно для того, чтобы уместить его 
по ширине книжной страницы. При вводе такого текста не нужно 
нажимать клавишу Епіег - просто продолжайте ввод в той же самой 
строке. 




* 







Этот значок отмечает советы, предложения и примечания общего 
характера. 
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Этот значок отмечает предупреждения и предостережения. 


Использование программного кода примеров 

Данная книга призвана помочь в решении ваших задач. Вы можете сво¬ 
бодно использовать примеры программного кода из этой книги в своих 
приложениях и в документации. Вам не нужно обращаться в издатель¬ 
ство за разрешением, если вы не собираетесь воспроизводить значитель¬ 
ные отрывки программного кода. Например, если вы разрабатываете 
программу и используете в ней несколько отрывков программного кода 
из книги, вам не нужно обращаться за разрешением. Однако в случае 
продажи или распространения компакт-дисков с примерами из этой 
книги вам необходимо получить разрешение от издательства О’КеШу. 
Если вы цитируете данную книгу или примеры из нее при ответах на 
вопросы, получение разрешения не требуется. При включении в вашу 
документацию существенных объемов программного кода примеров из 
этой книги вам необходимо получить разрешение издательства. 

Мы приветствуем, но не требуем добавлять ссылку на первоисточник 
при цитировании. Под ссылкой на первоисточник мы подразумеваем 
указание авторов, издательства и І8ВЫ. Например: «Ке&иіаг Ехргеззіопз 
СоокЪоок Ьу Ооуѵаегіз апй 81еѵеп ЬеѵіПіап. Соругі&М 2012 Ооу- 
ѵаегіз апсі 81еѵеп ЬеѵШіап, 978-1-449-31943-4». 

За разрешением на использование значительных объемов программно¬ 
го кода примеров из этой книги обращайтесь по адресу регті88іоп8@оге- 
Шу.сот. 

Опііпе 

8а^агі Воокз Опііпе (іѵіѵіи.за^агіЪоокзопІіпе.сот) - это вир¬ 
туальная библиотека, содержащая авторитетную инфор¬ 
мацию в виде книг и видеоматериалов, созданных веду¬ 
щими специалистами в области технологий и бизнеса. 

Профессионалы в области технологий, разработчики программного обе¬ 
спечения, веб-дизайнеры, а также бизнесмены и творческие работники 
используют 8аі:агі Воокз Опііпе как основной источник информации 
для проведения исследований, решения проблем, обучения и подготов¬ 
ки к сертификационным испытаниям. 

Библиотека 8а1агі Воокз Опііпе предлагает широкий выбор продуктов 
и тарифов для организаций, правительственных учреждений и физи¬ 
ческих лиц. Подписчики имеют доступ к поисковой базе данных, содер¬ 
жащей информацию о тысячах книг, видеоматериалов и рукописей от 
таких издателей, как О’КеіІІу Мейіа, Ргепіісе Наіі Ргоіеззіопаі, АсЫізоп- 
ДѴезІу Ргоіеззіопаі, Місгозоіі; Ргезз, 8атз, (^ие, РеасЬріІ Ргезз, Еосаі 


Заіагі® Воокз 

За^агГ* 

Воок$ Опііпе 
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Ргезз, Сізсо Рге88, «Іоіт АУіІеу & 8опз, 8уп^гезз, Мог^ап Каиітапп, ІВМ 
КесіЬоокз, Раскі, АсІоЪе Ргезз, ГТ Ргезз, Аргезз, Маппіп^, Ые\ѵ КШегз, 
МсСгалѵ-НіІІ, «Іопез & ВагЙеІІ, Соигзе ТесЬпоІо&у и десятков других. За 
подробной информацией о 8аІагі Воокз Опііпе обращайтесь по адресу 
Ніір://юіѵіѵ. 8 а] : агіЪоок 80 пІіпе.сот/. 

Как с нами связаться 

С вопросами и предложениями, касающимися этой книги, обращай¬ 
тесь в издательство: 

О’КеШу Месііа, Іпс. 

1005 Огаѵепзіеіп Ні^Ьлѵау ЫогІЬ 
8еЬаз1оро1, СА 95472 

800-998-9938 (в Соединенных Штатах Америки или в Канаде) 
707-829-0515 (международный или местный) 

707-829-0104 (факс) 

Список опечаток, файлы с примерами и другую дополнительную ин¬ 
формацию вы найдете на веб-странице, посвященной этой книге: 

Ыір://огеіІІу.сот/саіаІо§/9781449319434 

Свои пожелания и вопросы технического характера отправляйте по ад¬ 
ресу: 

Ъоокдие8ііоп8@огеіІІу.сот 

Дополнительную информацию о наших книгах, обсуждения, Центр ре¬ 
сурсов издательства О’КеШу вы найдете на сайте Ыір://іѵіѵіѵ.огеіІІу.сот. 

Ищите нас на ГасеЪоок: кМр://{асеЪоок.сот/огеШу . 

Следуйте за нами в Твиттере: кіір://ііѵіііег.сот/огеШутесІіа. 

Смотрите нас на УоиТиЪе: кіір://іѵіѵіѵ.уоиіиЪе.сот/огеіІІутесІіа. 

Благодарности 

Мы выражаем свою признательность Энди Ораму (Апсіу Огат), нашему 
редактору из издательства О’КеШу Месііа, Іпс., за сопровождение этого 
проекта от начала и до конца. Мы также благодарим Джеффри Фридла 
^ейтеу Ггіесіі), Зака Грента (2ак Огеапі), Николая Линдберга (Мкоіаі 
ЬіпсіЪег^) и Яна Морса (Іап Могзе) за техническое рецензирование пер¬ 
вого издания и Николая Линдберга, Джудит Майерсон (ЛкШЬ Муегзоп) 
и Зака Грента за рецензирование второго издания, что позволило сде¬ 
лать эту книгу более последовательной и точной. 




1 

Введение в регулярные выражения 


Раз уж вы открыли эту книгу, то наверняка захотите ввести в свой про¬ 
граммный код какие-то из несуразных строк, состоящих из круглых 
скобок и вопросительных знаков, которые вам встретятся в этих гла¬ 
вах. Если вы готовы включиться в игру, будьте нашим гостем: реаль¬ 
ные регулярные выражения и их описания вы найдете в главах с 4 по 9. 

Однако и начальные главы помогут вам сэкономить немало времени в бу¬ 
дущем. Например, в этой главе будут представлены некоторые утилиты 
(часть из них создана авторами книги, Яном и Стивеном), которые позво¬ 
ляют проверять и отлаживать регулярные выражения перед включени¬ 
ем их в программный код, где отыскать возможные ошибки будет намно¬ 
го труднее. Кроме того, начальные главы покажут вам, как использо¬ 
вать различные особенности и возможности регулярных выражений, 
способные облегчить вашу жизнь; дадут понимание регулярных выра¬ 
жений с точки зрения их оптимизации; покажут тонкие отличия в том, 
как обрабатываются регулярные выражения в разных языках програм¬ 
мирования и даже в различных версиях одного и того же языка. 

Мы приложили немалые усилия при подготовке этих базовых сведений 
в надежде, что вы начнете изучение с них или, если вы уже столкну¬ 
лись с проблемами, связанными с использованием регулярных выра¬ 
жений, то приняли решение со всем этим разобраться. 

Определение регулярных выражений 

В контексте этой книги под регулярными выражениями понимаются 
определенные виды текстовых шаблонов, которые могут использовать¬ 
ся во многих современных приложениях и языках программирования. 
Вы можете использовать их, чтобы убедиться, что введенный текст впи¬ 
сывается в заданный шаблон; отыскивать внутри больших объемов тек¬ 
ста фрагменты, соответствующие шаблону; замещать текст, соответст- 



Определение регулярных выражений 


17 


вующий шаблону, другим текстом или переупорядочивать фрагменты 
совпавшего текста; разбивать блоки текста на списки более мелких 
фрагментов или даже делать не столь разумные вещи. Эта книга помо¬ 
жет вам точно понимать, что вы делаете, и избегать ошибок. 


История появления термина 
«регулярное выражение» 

Термин «регулярное выражение» пришел из математики и теоре- 
тической информатики, где он отражает свойство математических 
выражений, называемое регулярностью . Такие выражения могут 
быть реализованы программно с использованием детерминиро¬ 
ванных конечных автоматов (ДКА). ДКА - это механизм с конеч¬ 
ным числом состояний, не поддерживающий возможность возвра¬ 
та (Ьаскѣгаскіп^). 

Текстовые шаблоны, использовавшиеся в самых ранних версиях 
инструментов §гер , были регулярными выражениями в матема¬ 
тическом смысле. Несмотря на то что имя прижилось, современ¬ 
ные регулярные выражения в стиле языка Регі фактически не яв¬ 
ляются регулярными выражениями в математическом смысле. 
Они реализованы с применением механизма недетерминирован¬ 
ных конечных автоматов (НКА). Вы вскоре поближе познакоми¬ 
тесь с понятием возврата. Программистам-практикам достаточно 
усвоить из этого примечания следующее: высоколобым компью¬ 
терным теоретикам приходится мириться с тем, что строгие тео¬ 
ретические модели заменяются технологиями, более полезными 
в реальном мире. 


При грамотном использовании регулярные выражения способны упро¬ 
стить задачи программирования и обработки текстов, а также обеспе¬ 
чить решение многих задач, которые вообще не могли бы быть решены 
без использования регулярных выражений. Вам могут потребоваться 
десятки, если не сотни, строк процедурного программного кода, чтобы 
извлечь все адреса электронной почты из документа, и такой код будет 
очень сложно написать и сопровождать. Однако с применением регу¬ 
лярных выражений, как показано в рецепте 4.1, решение этой задачи 
может быть реализовано всего лишь парой строк кода, а возможно, да¬ 
же и одной строкой. 

Но если попытаться взвалить слишком много на одно-единственное ре¬ 
гулярное выражение или задействовать регулярные выражения там, 
где они малопригодны, вы поймете, почему некоторые говорят: 1 


1 Историю этой цитаты Джеффри Фридл прослеживает в своем блоге по ад¬ 
ресу кир://ге§ехЛп{о/Ыоё/2006-09-15/24 7. 


18 


Глава 1. Введение в регулярные выражения 


Когда кто-то, сталкиваясь с проблемой, думает: «А-а, понимаю, 
здесь поможет регулярное выражение», то в результате он получа¬ 
ет две проблемы. 

Вторая проблема, которую получают те, кто так думает, состоит в том, 
что они не читали справочное руководство, которое вы держите в ру¬ 
ках. Продолжайте читать его. Регулярные выражения - это очень мощ¬ 
ный инструмент. Если решаемая задача связана с обработкой или из¬ 
влечением текста на компьютере, то владение регулярными выраже¬ 
ниями поможет вам сэкономить массу времени. 

Множество диалектов регулярных выражений 

Итак, заголовком предыдущего раздела мы ввели вас в заблуждение. 
Мы не дали определение регулярных выражений. И мы не можем сде¬ 
лать этого. В мире не существует официального стандарта, который 
точно определял бы, какой текстовый шаблон является регулярным 
выражением, а какой нет. Как вы можете себе представить, каждый, 
кто проектирует свой язык программирования, и каждый разработчик 
приложений, обрабатывающих тексты, имеет свое представление о том, 
какими должны быть регулярные выражения. Поэтому в результате 
мы имеем массу диалектов регулярных выражений. 

К счастью, большинство проектировщиков и разработчиков оказыва¬ 
ются достаточно ленивы. Зачем создавать нечто совершенно новое, ко¬ 
гда можно скопировать то, что уже существует? В результате почти все 
современные диалекты регулярных выражений, включая и те, что рас¬ 
сматриваются в этой книге, ведут свою историю от языка программи¬ 
рования Регі. Мы называем эти диалекты регулярными выражениями 
в стиле языка Регі. Синтаксис этих диалектов прост и в основном со¬ 
вместим, хотя и не полностью. 

Писатели тоже ленивы. Единственное регулярное выражение мы обыч¬ 
но называем гецех или гедехр , а термин гецехез используем для обозна¬ 
чения множественного числа. 

Диалекты регулярных выражений не связаны жестко с какими-то опре¬ 
деленными языками программирования. Языки сценариев обычно име¬ 
ют свои собственные встроенные диалекты регулярных выражений. 
Другие языки программирования опираются на использование библио¬ 
тек, реализующих поддержку регулярных выражений. Некоторые биб¬ 
лиотеки доступны для нескольких языков программирования, а неко¬ 
торые языки программирования предоставляют возможность выбора из 
нескольких библиотек. 

Эта вводная глава рассматривает диалекты регулярных выражений без 
всякой связи с языками программирования. Листинги с исходными 
текстами начнут появляться в главе 3; в разделе «Языки программиро¬ 
вания и диалекты регулярных выражений» вы узнаете, с какими диа¬ 
лектами вам предстоит работать. А пока оставим в стороне все вопросы, 
связанные с программированием. Инструменты, перечисленные в еле- 
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дующем разделе, обеспечивают простоту исследования синтаксиса ре¬ 
гулярных выражений, «обучая в процессе работы». 

Диалекты регулярных выражений, 
рассматриваемые в этой книге 

Для этой книги мы отобрали наиболее распространенные диалекты ре¬ 
гулярных выражений, используемых в наши дни. Все они являются 
диалектами регулярных выражений языка Регі. Некоторые диалекты 
имеют более широкие возможности по сравнению с другими. Но, как 
правило, когда два диалекта обладают одинаковым набором возможно¬ 
стей, они используют один и тот же синтаксис. Мы укажем на некоторые 
из досадных несовместимостей, с которыми нам пришлось столкнуться. 

Все рассматриваемые здесь диалекты являются частью какого-либо язы¬ 
ка программирования или библиотеки, которые продолжают активно 
разрабатываться. Из списка диалектов, что приводится ниже, вы узнае¬ 
те, какие версии рассматриваются в этой книге. На протяжении всей 
книги мы будем упоминать диалекты без их версий, если представлен¬ 
ные регулярные выражения одинаково работают во всех диалектах, что 
случается практически всегда. Помимо исправлений ошибок, проявля¬ 
ющихся в крайних случаях, диалекты обычно не изменяются, за ис¬ 
ключением добавления новых особенностей и введения новых синтак¬ 
сических конструкций, которые в предыдущих версиях трактовались 
как ошибка. 

.А ГЕТ 

Платформа МісгозоН .1ЧЕТ Егате\ѵогк обеспечивает поддержку пол¬ 
ноценного диалекта регулярных выражений в стиле языка Регі в ви¬ 
де пакета ЗузІет.ТехОедиІагЕхргеззіопз. В этом издании описывают¬ 
ся версии .ЫЕТ начиная с 1.0 по 4.0. Строго говоря, существует всего 
две версии диалекта .ЫЕТ: 1.0 и 2.0. В версиях .ЫЕТ 1.1, 3.0 и 3.5 
классы Ке&ех не претерпели никаких изменений. В версии 4.0 класс 
Ке&ех получил несколько новых методов, но синтаксис регулярных 
выражений не изменился. 

Любые языки программирования, поддерживаемые платформой 
.ЫЕТ, включая С#, ѴВ.ЫЕТ, БеІрЬі для .ЫЕТ и даже СОВОЬ.ИЕТ, об¬ 
ладают полным доступом ко всем особенностям диалекта регуляр¬ 
ных выражений .ЫЕТ. Если приложение, разработанное на основе 
платформы .ЫЕТ, обеспечивает поддержку регулярных выражений, 
можно быть совершенно уверенным, что оно использует диалект 
.ЫЕТ, даже если заявлено, что используются «регулярные выраже¬ 
ния Регі». Долгое время исключение составляла сама среда разра¬ 
ботки Ѵізиаі 81ш1іо. Вплоть до версии Ѵізиаі 81ис1іо 2010 в интегри¬ 
рованной среде разработки (ГОЕ) использовался устаревший диа¬ 
лект регулярных выражений, реализованный с самого начала, кото¬ 
рый вообще не является диалектом в стиле языка Регі. И только 
в версии Ѵізиаі Зіисііо 11 (которая была в состоянии бета-версии на 
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момент написания этих строк) наконец-то стал использоваться диа¬ 
лект регулярных выражений .ЫЕТ и в самой ГОЕ. 

^аѵа 

Заѵа 4 - это первая версия, в которой присутствует встроенная под¬ 
держка регулярных выражений, реализованная в виде пакета ]аѵа. 
Щіі.гедех. Эта реализация быстро затмила различные сторонние 
библиотеки для Заѵа. Кроме того, что этот пакет является стандарт¬ 
ным и встроенным, он также предлагает полноценную реализацию 
Регі-совместимого диалекта регулярных выражений и имеет пре¬ 
восходную производительность, сопоставимую даже с приложения¬ 
ми, написанными на языке С. В этой книге рассматривается пакет 
^ аѵа . иіііі . гедех, входящий в состав Заѵа 4, 5, 6 и 7. 

Если вы пользуетесь программным обеспечением, написанным на 
языке Заѵа не более чем пару лет тому назад, любые регулярные вы¬ 
ражения, поддерживаемые им, весьма вероятно используют диа¬ 
лект Заѵа. 

^ѵаЗсгірі 

Название Ла ѵаЗсгірі используется в этой книге для обозначения 
диалекта регулярных выражений, определяемого версиями 3 или 5 
стандарта ЕСМА-262. Этот стандарт определяет язык программиро¬ 
вания ЕСМАЗсгірі;, который в различных веб-браузерах более ши¬ 
роко известен под названиями ЗаѵаЗсгірѣ и ЗЗсгірІ. Все браузеры - 
Іпіегпеі Ехріогег (начиная с версии 5.5), Еігеіюх, СЬготе, Орега 
и Ва^агі - реализуют третью или пятую версию стандарта ЕСМА-262. 
Однако у каждого из браузеров имеются свои отклонения от стан¬ 
дарта. Мы будем указывать на эти отклонения в ситуациях, когда 
это будет иметь значение. 

Если веб-сайт позволяет выполнять поиск или фильтрацию содержи¬ 
мого с помощью регулярных выражений без необходимости ожидать 
ответ веб-сервера, следовательно, он использует диалект ^ѵаВсгірі; 
регулярных выражений, который поддерживается браузерами на 
стороне клиента. Этот диалект используется даже в языках програм¬ 
мирования МісгозоЙ ѴВЗсгірІ и АбоЪе АсііопВсгірѣ 3, хотя в Асііоп- 
Зсгірѣ 3 в него добавлены некоторые дополнительные особенности. 

ХКедЕхр 

ХКе&Ехр - это свободно распространяемая библиотека ЗаѵаВсгірі;, 
разработанная Стивеном Левитаном (Зіеѵеп ЪеѵіІЬап). Ее можно по¬ 
лучить по адресу НИр://хге§ехр.сот. Библиотека ХКе&Ехр расширя¬ 
ет синтаксис регулярных выражений ЗаѵаЗсгірІ и устраняет некото¬ 
рые несовместимости между браузерами. Рецепты в этой книге, 
использующие особенности регулярных выражений, не доступные 
в стандартном диалекте ^ѵаЗсгірі, содержат дополнительные реше¬ 
ния, реализованные с использованием ХКе&Ехр. Если в решении 
указывается диалект ХКе^Ехр, это означает, что оно будет работать 
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в стандартном ^ѵа8сгір! при использовании библиотеки ХКе&Ехр 
и не будет - в ^ѵа8сгірІ без библиотеки ХКе^Ехр. Если в решении 
указывается диалект ^ѵаЗсгірѣ, следовательно, оно будет работать 
в сценариях на ^ѵа8сгірі; независимо от того, используется библио¬ 
тека ХКе^Ехр или нет. 

Эта книга охватывает версию ХКе&Ехр 2.0. Решения в рецептах 
предполагают использование сценария хгедехр-а11.]5 и соответст¬ 
венно доступность полноценной поддержки Юникода в библиотеке 
ХКе^Ехр. 

РСЕЕ 

РСКЕ - это библиотека реализации «РегІ-СотраІіЫе Ке^иіаг Ех- 
ргеззіопз» (Регі-совместимых регулярных выражений), написанная 
Филипом Хейзелем (РЫИр Нагеі) на языке С. Получить исходные 
тексты библиотеки можно по адресу Мір://іѵипѵ.рсге.огё. В этой кни¬ 
ге рассматриваются версии РСКЕ с 4 по 8. 

Несмотря на утверждение, что библиотека РСКЕ совместима с диа¬ 
лектом регулярных выражений языка Регі, что в отношении ее даже 
более справедливо, чем для других диалектов, тем не менее она всего 
лишь поддерживает стиль языка Регі. Некоторые особенности, та¬ 
кие как поддержка Юникода, в ней отличаются, и она не допускает 
внедрение программного кода на языке Регі в регулярные выраже¬ 
ния, как это допускается в самом языке Регі. 

Благодаря свободной лицензии и надежности библиотека РСКЕ на¬ 
шла применение во многих языках программирования и приложе¬ 
ниях. Она встроена в язык РНР и включена в состав многих компо¬ 
нентов Беірііі. Если заявлено, что приложение поддерживает «Регі- 
совместимые» регулярные выражения без указания конкретного 
используемого диалекта, наиболее вероятно, что используется биб¬ 
лиотека РСКЕ. 

Регі 

То, что язык Регі имеет встроенную поддержку регулярных выраже¬ 
ний, является главной причиной их популярности в наши дни. 
В этой книге рассматриваются версии Регі 5.6, 5.8, 5.10, 5.12 и 5.14. 
Каждая из этих версий добавляет новые особенности в синтаксис ре¬ 
гулярных выражений Регі. Когда в книге указывается, что регуляр¬ 
ное выражение работает в определенной версии Регі, это означает, 
что оно будет работать также во всех последующих версиях, охваты¬ 
ваемых этой книгой. 

Многие приложения и библиотеки реализации регулярных выраже¬ 
ний, которые, как утверждается, поддерживают регулярные выра¬ 
жения языка Регі или совместимы с ними, на самом деле просто ис¬ 
пользуют регулярные выражения в стиле языка Регі. Они поддержи¬ 
вают синтаксис, похожий на синтаксис Регі, но не поддерживают тот 
же набор особенностей регулярных выражений. Наиболее вероятно, 




22 


Глава 1. Введение в регулярные выражения 


что они используют один из диалектов, что приводятся в списке ни¬ 
же. Все эти диалекты являются диалектами в стиле языка Регі. 

Руікоп 

Язык программирования РуЙюп обеспечивает поддержку регуляр¬ 
ных выражений посредством модуля ге. В этой книге рассматрива¬ 
ются версии РуЬЬоп с 2.4 по 3.2. Различия в поддержке регулярных 
выражений между версиями РуНюп 2.4, 2.5, 2.6 и 2.7 весьма незна¬ 
чительны. В версии РуПюп 3.0 была существенно улучшена под¬ 
держка Юникода в регулярных выражениях, а версии 3.1 и 3.2 не 
привнесли в регулярные выражения никаких изменений. 

ЕиЪу 

Поддержка регулярных выражений в языке КиЪу реализована как 
часть самого языка, так же как и в Регі. В этой книге рассматрива¬ 
ются версии КиЬу 1.8 и 1.9. Версия КиЬу 1.8 по умолчанию использу¬ 
ет диалект регулярных выражений, реализация которого включена 
непосредственно в исходные тексты КиЬу. Версия КиЬу 1.9 по умол¬ 
чанию использует библиотеку регулярных выражений Опі&игата. 
Имеется возможность скомпилировать КиЬу 1.8 с поддержкой библио¬ 
теки Опі^игата, а КиЬу 1.9 - с поддержкой старого диалекта регу¬ 
лярных выражений КиЬу. В этой книге мы будем обозначать встроен¬ 
ный диалект КиЬу как КиЬу 1.8, а диалект Опі&игата - как КиЬу 1.9. 

Чтобы определить, какой диалект регулярных выражений КиЬу ис¬ 
пользуется у вас, попробуйте выполнить регулярное выражение <а++>. 
Если поддерживается диалект КиЬу 1.8, будет выдано сообщение об 
ошибке, потому что он не поддерживает захватывающие квантифи¬ 
каторы, тогда как в диалекте КиЬу 1.9 этому выражению соответст¬ 
вует строка, состоящая из одного или более символов. 

Библиотека Опі&игата предусматривает обратную совместимость 
с диалектом КиЬу 1.8, просто добавляя новые возможности, которые 
не влияют на работу существующих регулярных выражений. Разра¬ 
ботчики даже оставили некоторые особенности, которые следовало 
бы изменить, например выражение <(?т)> означает «точка соответст¬ 
вует концу строки», тогда как в других диалектах для этой же цели 
используется выражение <(?з)>. 

Поиск с заменой 

с помощью регулярных выражений 

Поиск с заменой - типичная задача, которая решается с применением 
регулярных выражений. Функция, реализующая поиск с заменой, при¬ 
нимает строку, в которой производится поиск, регулярное выражение 
и строку замены, которая будет замещать найденные фрагменты. Ре¬ 
зультатом функции является строка, где все участки, соответствующие 
регулярному выражению, заменяются замещающим текстом. 




Поиск с заменой с помощью регулярных выражений 
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Хотя сам замещающий текст не является регулярным выражением, до¬ 
пускается использовать специальный синтаксис с целью динамического 
создания замещающего текста. Как это делается, описывается в рецеп¬ 
тах 2.20 и 2.21. Некоторые диалекты также поддерживают вставку сов¬ 
павшего содержимого в замещающий текст, как показано в рецепте 2.22. 
В главе 3 в рецепте 3.16 показано, как с помощью программного кода ге¬ 
нерировать различные замещающие тексты для каждого совпадения. 

Множество диалектов определения 
замещающего текста 

Многообразие идей, выдвигаемых различными разработчиками реали¬ 
заций регулярных выражений, привело к появлению широкого диапа¬ 
зона диалектов регулярных выражений, каждый из которых обладает 
своими особенностями. История выработки синтаксиса определения за¬ 
мещающего текста также не является исключением. В действительно¬ 
сти, диалектов определения замещающего текста оказалось даже боль¬ 
ше, чем диалектов самих регулярных выражений. Создание механизма 
регулярных выражений - задача не из легких. Большинство програм¬ 
мистов предпочитает использовать один из существующих механизмов 
регулярных выражений и затем прикручивать к нему функцию поиска 
с заменой, что совсем несложно. В результате появилось множество диа¬ 
лектов определения замещающего текста для библиотек поддержки ре¬ 
гулярных выражений, в которых отсутствуют собственные реализации 
функции поиска с заменой. 

К счастью, все диалекты регулярных выражений, представленные в этой 
книге, обладают собственными возможностями выполнения поиска 
с заменой, за исключением РСКЕ. Этот недостаток РСКЕ усложняет 
жизнь тем программистам, которые используют диалекты, созданные 
на его основе. Свободно распространяемая библиотека РСКЕ не содер¬ 
жит встроенных функций, реализующих возможность замены. Поэтому 
все приложения и языки программирования, опирающиеся на исполь¬ 
зование РСКЕ, должны предоставлять собственные реализации функ¬ 
ции поиска с заменой. Многие программисты пытаются копировать су¬ 
ществующие реализации, но практически всегда делают это несколько 
по-разному. 

Ниже перечислены диалекты определения замещающего текста, рас¬ 
сматриваемые в этой книге. За дополнительной информацией о соответ¬ 
ствующих им диалектах регулярных выражений обращайтесь к разде¬ 
лу «Множество диалектов регулярных выражений». 

.ЫЕТ 

Пакет ЗузІет.ТехІ.РедиІагЕхргеззіопз содержит несколько функций, 

реализующих поиск с заменой. Диалект определения замещающего 

текста в .ЫЕТ соответствует диалекту регулярных выражений .ЫЕТ. 

Все версии .ЫЕТ используют один и тот же диалект определения 
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замещающего текста. Новые особенности регулярных выражений, 
появившиеся в ^ЕТ 2.0, никак не повлияли на синтаксис определе¬ 
ния замещающего текста. 

^аѵа 

Пакет іаѵа. иіііі. гедех содержит собственные встроенные функции по¬ 
иска с заменой. В этой книге рассматриваются версии ^ѵа 4, 5, 6 и 7. 

^ ѵаЗсгірі 

Под названием с ТаѵаЗсгірі в этой книге мы будем подразумевать как 
диалект определения замещающего текста, так и диалект регуляр¬ 
ных выражений, определяемый версиями 3 и 5 стандарта ЕСМА-262. 

ХКедЕхр 

Библиотека ХКе^Ехр Стивена Левитана имеет собственную функ¬ 
цию гер1асе(), устраняющую несовместимость браузеров и добавляю¬ 
щую поддержку обратных ссылок ( Ьаскге/егепсез ) на именованные 
группы, поддерживаемые в диалекте ХКе&Ехр. Рецепты в этой кни¬ 
ге, использующие именованные группы, включают дополнительные 
решения на диалекте ХКе^Ехр. Если в решении указывается, что ис¬ 
пользуется диалект ХКе^Ехр определения текста замены, это озна¬ 
чает, что оно будет работать в ЗаѵаЗсгірѣ только при использовании 
библиотеки ХКе&Ехр. Если в решении указывается диалект Заѵа- 
Зсгірі;, следовательно, оно будет работать в сценариях на ЗаѵаЗсгірі 
независимо от того, используется ли библиотека ХКе&Ехр или нет. 

Эта книга охватывает версию ХКе^Ехр 2.0, которую можно загру¬ 
зить по адресу Мір:/ /хгедехр.сот. 

РНР 

В этой книге рассматривается реализация поиска с заменой на язы¬ 
ке РНР в виде функции ргед_гер1асе. Данная функция использует 
диалект регулярных выражений РСКЕ и диалект РНР определения 
замещающего текста. Впервые она появилась в версии РНР 4.0.0. 

В других языках программирования, опирающихся на библиотеку 
РСКЕ, используются отличные от РНР диалекты определения заме¬ 
щающего текста. В зависимости от того, где черпали вдохновение 
разработчики того или иного языка программирования, синтаксис 
определения замещающего текста может быть похожим на диалект 
РНР или на любой другой диалект определения замещающего тек¬ 
ста из представленных в этой книге. 

В языке РНР имеется также функция егед_гер1асе. Эта функция ис¬ 
пользует другой диалект регулярных выражений (Р08ІХ ЕКЕ) и иной 
диалект определения замещающего текста. Семейство функций егед 
из языка РНР не будет рассматриваться в этой книге. 

Регі 

Язык Регі обладает встроенной поддержкой замещения текста с по¬ 
мощью регулярных выражений, реализованной в виде инструкции 




Инструменты для работы с регулярными выражениями 
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з/гедех/геріасе/. Диалект определения замещающего текста в языке 
Регі соответствует его диалекту регулярных выражений. В этой кни¬ 
ге рассматриваются версии от Регі 5.6 до Регі 5.14. В Регі 5.10 была 
добавлена поддержка именованных обратных ссылок в замещаю¬ 
щем тексте как дополнение к добавленной в регулярные выражения 
поддержке именованных групп. 

Руікоп 

Модуль ге в языке РуІЬоп реализует поиск с заменой в виде функции 
зиЬ. Диалект определения замещающего текста в языке РуІЬоп соот¬ 
ветствует диалекту регулярных выражений РуІЬоп. В этой книге 
рассматриваются версии РуіЬоп с 2.4 по 3.2. Различия в синтаксисе 
определения текста замены между этими версиями отсутствуют. 

КиЪу 

Поддержка регулярных выражений в языке КиЬу встроена непосред¬ 
ственно в сам язык, включая и функцию поиска с заменой. В этой 
книге рассматриваются версии КиЬу 1.8 и 1.9. Если синтаксис ре¬ 
гулярных выражений в версиях КиЬу 1.8 и 1.9 имеет существенные 
отличия, то синтаксис определения замещающего текста остается 
практически одинаковым, за исключением того, что в версии КиЬу 1.9 
добавлена поддержка именованных обратных ссылок в замещаю¬ 
щем тексте. Именованные группы - это новая особенность, появив¬ 
шаяся в поддержке регулярных выражений КиЬу 1.9. 

Инструменты для работы 
с регулярными выражениями 

Если у вас нет опыта программирования регулярных выражений, мы 
рекомендуем для начала поэкспериментировать с ними с помощью до¬ 
полнительных инструментов и только потом включать их в программ¬ 
ный код. В этой главе представлены примеры простых регулярных вы¬ 
ражений, которые не содержат дополнительных экранированных по¬ 
следовательностей, необходимых при использовании в языках програм¬ 
мирования (даже в языке командной оболочки ІЛЧІХ). Эти регулярные 
выражения можно вводить непосредственно в поле поиска приложения. 

В главе 3 описывается, как оформляются регулярные выражения в ис¬ 
ходных текстах программ. Оформление регулярных выражений в ви¬ 
де строк еще больше осложняет их восприятие человеком, потому что 
к правилам экранирования последовательностей внутри регулярных 
выражений добавляются правила экранирования служебных симво¬ 
лов в строках. Мы не будем касаться этой проблемы до рецепта 3.1. Как 
только вы разберетесь с основами регулярных выражений, вы сможете 
увидеть лес за частоколом обратных слэшей. 

Инструменты, описываемые в этом разделе, кроме всего прочего обеспе¬ 
чивают возможность отладки, проверки синтаксиса и другие удобства, 




26 


Глава 1. Введение в регулярные выражения 


не доступные в большинстве сред программирования. По этой причине 
в процессе разработки регулярных выражений для своих приложений 
вы можете найти для себя удобным сначала создать сложное регуляр¬ 
ное выражение в одном из этих инструментов и потом перенести его 
в свою программу. 

КедехВисІсІу 

Программа Ке&ехВисШу (рис. 1.1) — один из наиболее полнофункцио¬ 
нальных инструментов, доступных на момент написания этих строк, 
позволяющий создавать, тестировать и реализовывать регулярные вы¬ 
ражения. Он обладает уникальной возможностью имитировать все диа¬ 
лекты регулярных выражений, рассматриваемые в этой книге, и даже 
преобразовывать их из одного диалекта в другой. 

Программа Ке^ехВисИу была спроектирована и разработана Яном Гой- 
вертсом ^ап Ооуѵаегіз), одним из авторов этой книги. Работа над про¬ 
граммой Ке^ехВиййу сделала Яна экспертом в области регулярных вы¬ 
ражений, а использование Ке^ехВисШу помогло довести его соавтора 
Стивена до этапа передачи этой книги в издательство О’КеШу. 

Если интерфейс программы (рис. 1.1) покажется вам перегруженным, то 
это только потому, что мы распахнули большую часть из имеющихся па¬ 
нелей, чтобы продемонстрировать обширные возможности Ке^ехВшЫу. 
По умолчанию все панели аккуратно свернуты в строку вкладок. Суще¬ 
ствует также возможность перемещать панели на второй монитор. 
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Рис . 1.1. Ее^ехВиМу 
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Чтобы опробовать какое-либо регулярное выражение из представлен¬ 
ных в этой книге, просто введите его в поле редактирования, располо¬ 
женное в верхней части окна Ке&ехВисМу. Программа автоматически 
подсветит синтаксис введенного регулярного выражения, ярко выде¬ 
лив возможные ошибки и непарные скобки. 

По мере ввода регулярного выражения в панели Сгеаіе (Создать) автома¬ 
тически будет создаваться подробный отчет на английском языке. Двой¬ 
ной щелчок мышью на любом из описаний в дереве будет вызывать пе¬ 
реход к редактированию соответствующей части регулярного выраже¬ 
ния. Вы можете вставлять новые элементы в регулярное выражение 
вручную или, щелкнув на кнопке Іпзегі: Токеп (Вставить лексему), выби¬ 
рать нужный элемент из меню. Например, если вы не помните доста¬ 
точно сложный синтаксис положительных опережающих проверок, 
можно попросить Ке^ехВисМу вставить соответствующие символы. 

После ввода или вставки некоторого образца текста в панель Тез! (Про¬ 
верка) при нажатой кнопке НідЫ.ідН! (Выделить) программа Ке^ехВисЫу 
автоматически выделит фрагменты текста, соответствующие регуляр¬ 
ному выражению. 

В число кнопок, которые вам наверняка придется использовать чаще 
всего, входят: 

І_із! АН (Перечислить все) 

Отображает список всех совпадений. 

Керіасе (Заменить) 

Кнопка Керіасе (Заменить), расположенная в верхней части окна, да¬ 
ет возможность ввести замещающий текст. Кнопка Керіасе (Заме¬ 
нить) в панели Тез! (Проверка) дает возможность увидеть, как будет 
выглядеть текст после выполнения операции замены. 

5рІі! (Разделить) (кнопка в панели Тез!, а не в верхней части окна) 

Интерпретирует регулярное выражение как разделитель и разбива¬ 
ет исходный текст на лексемы по совпадениям, найденным с помо¬ 
щью регулярного выражения. 

Щелкните на любой из этих кнопок и в меню Из! АЦ (Перечислить все) 
выберите пункт 1)рсіа!е Аи!ота!ісаІІу (Обновлять автоматически), чтобы 
обеспечить автоматическую синхронизацию результатов по мере редак¬ 
тирования регулярного выражения или текста примера. 

Чтобы в точности увидеть, как работает (или не работает) регулярное вы¬ 
ражение, следует щелкнуть в панели Тез! (Проверка) на выделенном сов¬ 
падении или в месте, где обнаружено отсутствие совпадения, и затем 
щелкнуть на кнопке йеЬид (Отладка). Программа Ке&ехВшМу переклю¬ 
чится в панель РеЬид (Отладка) и по шагам продемонстрирует процесс по¬ 
иска совпадения. Щелкнув мышью в пределах вывода отладчика, мож¬ 
но определить, какому фрагменту регулярного выражения соответству¬ 
ет текст, на котором был выполнен щелчок. Щелкнув мышью в пределах 
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регулярного выражения, можно выделить фрагмент текста в панели от¬ 
ладчика, соответствующий данной части регулярного выражения. 

В панели ІІзе (Использование) можно выбрать предпочтительный язык 
программирования и функцию и тут же получить исходный программ¬ 
ный код реализации регулярного выражения. Исходные тексты шабло¬ 
нов для Ке&ехВікМу полностью доступны для редактирования во встро¬ 
енном редакторе шаблонов. Благодаря этому можно добавлять новые 
функции и даже новые языки программирования или изменять суще¬ 
ствующие. 

Чтобы испытать работу регулярного выражения на большом объеме 
данных, можно переключиться в панель СКЕР и произвести поиск (воз¬ 
можно, с заменой) в любом числе файлов и каталогов. 

Обнаружив регулярное выражение в исходном тексте сопровождаемой 
программы, можно скопировать его в буфер обмена, включая ограничи¬ 
вающие его кавычки или слэши, затем в окне программы Ке&ехВшМу 
щелкнуть на кнопке Разііе (Вставить), расположенной в верхней части, 
и выбрать стиль оформления строк для вашего языка программирова¬ 
ния. После этого регулярное выражение появится в окне Ке&ехВисЫу 
как обычное регулярное выражение, без дополнительных кавычек и эк¬ 
ранирующих последовательностей, необходимых для оформления ли¬ 
тералов строк. Чтобы создать в буфере обмена строку с соблюдением 
синтаксических правил, достаточно щелкнуть на кнопке Сору (Копиро¬ 
вать), расположенной в верхней части, которую затем можно будет вста¬ 
вить в исходный текст программы. 

По мере накопления опыта в панели МЬгагу (Библиотека) можно созда¬ 
вать собственную библиотеку регулярных выражений. Не забывайте 
добавлять подробное описание и тестовые примеры при сохранении ре¬ 
гулярного выражения. Регулярные выражения могут выглядеть слож¬ 
ными для понимания даже для опытных экспертов. 

В случае неудачи при создании собственного регулярного выражения 
можно щелкнуть на вкладке панели Рошт (Форум) и затем на кнопке 
І_одіп (Зарегистрироваться). Если вы приобрели программу Ке&ехВікЫу 
на законных основаниях, на экране появится форма входа, заполнив 
которую и щелкнув на кнопке О К, вы подключитесь к форуму пользова¬ 
телей Ке^ехВисЫу. Стивен и Ян часто бывают здесь. 

Программа Ке^ехВисЫу работает под управлением операционных сис¬ 
тем Л/Ѵіпс1о\ѵ8 98, МЕ, 2000, ХР, Ѵізіа, 7 и 8. Пользователи Ыпих и Арріе 
могут запускать ее под управлением ѴМлѵаге, Рагаііеіз, СгоззОѵег ОШ- 
се и, с некоторыми усилиями, под \ѴШЕ. Загрузить оценочную версию 
Ке^ехВиббу можно по адресу НИр://іѵгѵіѵ.ге§ехЪи(1(іу.сот/Ке§ехВи(і(1у- 
СоокЪоок.ехе. Оценочная версия в течение семи дней фактического ис¬ 
пользования обладает полным набором функциональных возможно¬ 
стей, за исключением доступа к форуму. 
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КедехРаІ 

Ке^ехРаІ (рис. 1.2) - это веб-приложение, выполняющее тестирование 
регулярных выражений. Оно было написано Стивеном Левитаном (81е- 
ѵеп ЬеѵіНіап), одним из авторов этой книги. Все, что необходимо для 
работы с этим приложением, - это современный веб-браузер. Приложе¬ 
ние Ке&ехРаІ полностью написано на языке ^ѵаЗсгірІ. Вследствие это¬ 
го оно поддерживает только диалект регулярных выражений ^ѵа- 
8сгір1, реализованный в веб-браузере, используемом для доступа к веб¬ 
приложению. 


$ Кеде Ткіег - КедехРаІ - Іпіетеі Ехріогег 

©О 


С=Ш]Ш 
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Рис. 1.2. КедехРаІ 

Чтобы опробовать какое-либо регулярное выражение из этой книги, от¬ 
кройте страницу кіір://іѵипѵ.гедехра1.сот и введите регулярное выра¬ 
жение в поле вверху. Приложение Ке&ехРаІ автоматически подсветит 
синтаксис введенного регулярного выражения, что сразу же позволит 
определить синтаксические ошибки. Приложение КедехРаІ учитывает 
проблемы несовместимости браузеров, которые могут нарушить ваши 
планы при разработке регулярных выражений для ЛѵаЗсгірі. Если 
какая-то синтаксическая конструкция работает некорректно в некото¬ 
рых браузерах, Ке&ехРаІ выделит ее как ошибку. 

Теперь можно ввести или вставить текст примера в большое поле в цент¬ 
ре, после чего Ке&ехРаІ автоматически выделит фрагменты текста, со¬ 
ответствующие регулярному выражению. 
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Здесь нет никаких кнопок, на которых требовалось бы щелкать, что де¬ 
лает Ке^ехРаІ одним из самых удобных веб-приложений тестирования 
регулярных выражений. 

КедехМадіс 

Ке^ехМа&іс (рис. 1.3) — еще один инструмент, спроектированный и раз¬ 
работанный Яном Гойвертсом. Если приложение Ке&ехВисЫу упрощает 
работу с синтаксисом регулярных выражений, то Ке^ехМа&іс в первую 
очередь предназначено для тех, кто не желает разбираться в этом син¬ 
таксисе и уж точно не хочет читать 500-страничные книги по этой теме. 
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Рис. 1.3. Ее§ехМа§іс 


При использовании Ке^ехМа^іс вы описываете, какой результат требу¬ 
ется получить, опираясь на образец исходного текста и высокоуровне¬ 
вые шаблоны Ке^ехМа&іс. На рис. 1.3 показано, что для получения ре¬ 
гулярного выражения, соответствующего адресам электронной почты, 
достаточно просто выбрать шаблон «етаіі аййгезз» (адрес электронной 
почты). Имеется возможность выполнить дополнительные настройки 
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шаблона, ограничив совпадения только с определенными именами поль¬ 
зователей и доменов, а также можно указать допустимость или обяза¬ 
тельность префикса таіііо:. 

Раз вы читаете эту книгу, значит, вы уже выбрали для себя путь к пол¬ 
ному овладению регулярными выражениями. Поэтому Ке^ехМа&іс ед¬ 
ва ли станет вашим основным инструментом. Но иногда могут возни¬ 
кать ситуации, когда он может оказаться полезным. В рецепте 6.7 мы 
расскажем, как создавать регулярные выражения, соответствующие 
диапазонам чисел. Регулярные выражения - не лучший способ выяс¬ 
нить, попадает ли некоторое число в заданный диапазон, но иногда они 
могут оказаться единственным доступным инструментом. Приложений 
со встроенной поддержкой регулярных выражений намного больше, 
чем приложений со встроенной поддержкой языков сценариев. Прием, 
описываемый в рецепте 6.7, несложен. Но реализация его вручную мо¬ 
жет оказаться весьма утомительным занятием. 

Представьте, что вместо простых примеров, которые приводятся в ре¬ 
цепте 6.7, вам потребовалось найти числа в диапазоне от 2147483648 
(2 31 ) до 4 294 967295 (2 32 -1) в десятичной нотации. Пользуясь приложе¬ 
нием Ке&ехМа&іс, достаточно просто выбрать шаблон «ІпЬе&ег» (целое 
число), отметить вариант «сіесітаі» (десятичное) и указать границы 
диапазона 21474 8 3 6 48..42 9 4 9 6 7 2 95. В «строгом» режиме Ке&ехМа&іс не¬ 
медленно сгенерирует следующее страшилище: 

\Ь(?:429496729[0-5]|42949672[0-8][0-9]|4294967[01][0-9]{2}|429496[0-6]и 
[0-9]{3} 142949[0-5][0-9]{4> 14294[0-8][0-9]{5} 1429[0-3][0-9]{6} |42[0-8р 
[0-9]{7}|4[01][0-9]{8}|3[0-9]{9}|2[2-9][0-9]{8}|21[5-9][0-9]{7}|214[89]и 
[0-9] {6} 12147[5-9][0-9]{5} 1214749[0-9] {4} 1214748[4-9][0-9] {3} | 2147483^-1 
[7-9][0-9]{2}|21474836[5-9][0-9]|214748364[89])\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуПюп, КиЬу 

Программа Ке&ехМа^іс работает под управлением операционных сис¬ 
тем 'ЭДіпскгѵѵз 98, МЕ, 2000, ХР, Ѵізіа, 7 и 8. Пользователи Ілпих и Арріе 
могут запускать ее под управлением ѴМлѵаге, Рагаііеіз, СгоззОѵег ОНі- 
се и, с некоторыми усилиями, под 1ДГШЕ. Загрузить оценочную версию 
Ке^ехМа^іс можно по адресу Мір://іѵіѵіѵ.ге8ехта§іс.сот/Ве8ехМаёісСо- 
окЪоок.ехе. Оценочная версия в течение семи дней фактического исполь¬ 
зования обладает полным набором функциональных возможностей, за 
исключением доступа к форуму. 

Другие примеры веб-приложений 
тестирования регулярных выражений 

Достаточно легко создать простое веб-приложение для тестирования ре¬ 
гулярных выражений. Если у вас имеются основные навыки веб-разра¬ 
ботки, в главе 3 вы найдете все необходимое для создания такого при¬ 
ложения. Сотни людей уже сделали это, причем некоторые из них до- 
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полнили свои приложения возможностями, которые делают их заслу¬ 
живающими внимания. 

КедехРІапеІ 

Ке&ехРІапеІ - это сайт, разработанный Эндрю Маркусом (Апсігелѵ Маг- 
сизе). Он утверждает, что его приложение позволяет тестировать регу¬ 
лярные выражения с гораздо большим количеством разнообразных 
библиотек поддержки регулярных выражений, чем любое другое. На 
домашней странице веб-приложения вы найдете ссылки на страницы 
тестирования для диалектов ^а.ѵа., ^ѵаЗсгірі;, .ЫЕТ, Регі, РНР, РуЙюп 
и КиЪу. Все они предоставляют простой и одинаковый интерфейс, отли¬ 
чаясь лишь списками параметров, доступных в разных языках про¬ 
граммирования. На рис. 1.4 изображена версия для диалекта .НЕТ. 

Введите или скопируйте регулярное выражение в поле Кедиіаг ехргеззіоп 
(Регулярное выражение). Если вы хотите опробовать поиск с заменой, 
вставьте текст замены в поле Керіасетепі (Замена). Протестировать вве¬ 
денное регулярное выражение можно с любым количеством испытуе¬ 
мых строк. Скопируйте испытуемые строки в поля Іприі (Исходная 
строка). Щелкните на кнопке Моге іприіз (Добавить исходные строки), 
если потребуется испытать более пяти исходных строк. В поля Кедиіаг 
ехрге$$іоп (Регулярное выражение) и Іприі (Исходная строка) допускает¬ 
ся вводить или вставлять многострочный текст, несмотря на то, что на 
экране видна только одна строка. Стрелки «вверх» и «вниз» справа от 
полей ввода позволяют прокручивать многострочный текст. 

Закончив ввод, щелкните на кнопке Тезі (Проверить), чтобы отправить 
все строки на сервер ге§ехрІапеі.сот . В результате вы получите страни¬ 
цу, как показано на рис. 1.4, со списком результатов тестирования ввер¬ 
ху. Первые две колонки повторяют ваш ввод, остальные содержат ре¬ 
зультаты вызовов различных функций. Эти колонки отличаются для 
разных языков программирования, поддерживаемых сайтом. 

гедех.Іа гзоіаѵіогѵі к. сот 

Ларе Олав Торвик (Ьагз Оіаѵ Тогѵік) создал небольшое, но замечатель¬ 
ное приложение тестирования регулярных выражений, доступное по 
адресу Ыір://ге§ехЛаг 80 Іаѵіогѵік.сот (рис. 1.5). 

Для начала выберите требуемый диалект регулярных выражений, щелк¬ 
нув на названии диалекта в верхней части страницы. Ларе предлагает 
выбор между диалектами РНР РСКЕ, РНР Р08ІХ и ^ѵаЗсгірІ. РНР 
РСКЕ - это диалект РСКЕ, рассматриваемый в этой книге и используе¬ 
мый в языке РНР семейством функций ргед. Р08ІХ- это устаревший 
диалект с ограниченными возможностями, используемый семейством 
функций егед в языке РНР, который не рассматривается в данной кни¬ 
ге. В случае выбора ^ѵаЗсгірѣ вы будете работать с реализацией ^ѵа- 
Зсгірі в вашем браузере. 
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Рис . 1.4. КедехРІапеі 


Введите регулярное выражение в поле с меткой Раііегп (Шаблон) и текст 
примера в поле 5иЬ]'есѣ (Испытуемый текст). Спустя мгновение в поле 
МаІсНез (Совпадения) появится текст примера с выделенными фрагмен¬ 
тами, соответствующими регулярному выражению. В поле Сосіе (Про¬ 
граммный код) появится строка программного кода, которая применяет 
регулярное выражение к испытуемому тексту. Операция копирования 
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и вставки этой строки в текстовом редакторе позволит вам сэкономить 
время на преобразование вручную регулярного выражения в строковый 
литерал. Любая строка или массив, возвращаемые программным ко¬ 
дом, отображаются в поле Кезиіі; (Результат). Так как при создании сво¬ 
его веб-приложения Ларе использовал технологию А)ах, результаты по¬ 
являются всего через несколько мгновений для любого выбранного диа¬ 
лекта. Для работы с этим инструментом необходимо подключение к се¬ 
ти, так как интерпретатор РНР выполняется на сервере, а не в браузере. 
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Рис . 1.5 . геёех.іагзоіаѵіогѵік.сот 

Во второй колонке отображается список команд и параметров регуляр¬ 
ных выражений. Перечень доступных команд и параметров зависит от 
выбранного диалекта регулярных выражений. В число команд обычно 
входят такие операции, как поиск совпадений, замена и разбиение. 
В число параметров входят такие, как чувствительность к регистру сим¬ 
волов, а также ряд других параметров, характерных для реализации. 
Эти команды и параметры описываются в главе 3. 
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ІѴІгедех 

кіір://іѵи)ъѵ.пге§ех.сот (рис. 1.6) - это простое веб-приложение, создан¬ 
ное Дэвидом Сераянгом (Баѵісі 8егиуап^е), предназначено для тестиро¬ 
вания регулярных выражений. Оно поддерживает диалект .ЫЕТ 2.0, 
который также используется в версиях .ЫЕТ 3.0, 3.5 и 4.0. 
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Рис. 1.6. Ыге§ех 


Расположение элементов на странице может немного сбивать с толку. 
Регулярное выражение следует вводить в поле с надписью Кедиіаг Ехргез- 
5Іоп (Регулярное выражение), а параметры выражения определяются 
с помощью флажков под ним. Испытуемый текст вводится в поле, рас¬ 
положенное ниже, где первоначально находится текст «И I ]ііз1: Оасі $5.00 
Ійеп "зОе" ѵѵоиісіп’ 1: Ье зо @#$! тасі.». Если предметом испытаний является 
веб-страница, можно ввести адрес ШІЬ в поле І-оасІ Тагдеі Ргот ІІРЬ (Загру- 
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зить испытуемый текст с адреса ИКЬ) и щелкнуть на кнопке 1-оасІ (За¬ 
грузить), расположенной под полем ввода. Если предметом испытаний 
является файл, расположенный на жестком диске, можно щелкнуть на 
кнопке Вгоѵѵзе (Просмотреть), отыскать требуемый файл и щелкнуть на 
кнопке 1_оасІ (Загрузить), расположенной под полем ввода. 

Испытуемый текст появится в поле МаІісНез & Кер1асетеп1:$ (Совпадения 
и замены), расположенном в центре страницы, в котором будут выделе¬ 
ны фрагменты, соответствующие регулярному выражению. Если вве¬ 
сти какой-либо текст в поле Керіасетепі: Біііпд (Строка замены), будет ото¬ 
бражен результат выполнения операции поиска с заменой. В случае на¬ 
личия ошибки в регулярном выражении будет выведено многоточие (...). 

Поиск соответствий регулярному выражению производится программ¬ 
ным кодом платформы .ЫЕТ, выполняющимся на стороне сервера, по¬ 
этому для работы с сайтом необходимо подключение к сети. Если ав¬ 
томатическое обновление страницы выполняется слишком медленно, 
наиболее вероятно, что это происходит из-за большого объема испытуе¬ 
мого текста. В этом случае отметьте флажок Мапиаііу Еѵаіиаіе Кедех (Про¬ 
изводить вычисления вручную), расположенный выше поля ввода регу¬ 
лярного выражения. В результате на странице появится кнопка Еѵаіиаіе 
(Вычислить), щелчок на которой будет приводить к обновлению содер¬ 
жимого поля МаІхНеБ & Керіасетепіз (Совпадения и замены). 

КиЬиІаг 

Майкл Ловитт (МісЬаеІ ЬоѵіН) разместил минималистичное приложе¬ 
ние для испытания регулярных выражений по адресу Мір://іѵипѵ.гиЪи- 
Іаг.сот (рис. 1.7). На момент написания этих строк оно позволяло выби¬ 
рать между КиЬу 1.8.7 и КиЪу 1.9.2, что дает возможность тестировать 
регулярные выражения в диалектах КиЪу 1.8 и КиЬу 1.9, описываемых 
в этой книге. 

Регулярное выражение вводится в поле Ѵоиг гедиіаг ехрге$5Іоп (Ваше регу¬ 
лярное выражение), расположенное между двумя символами слэша. 
Можно отключить чувствительность к регистру символов, введя сим¬ 
вол і в небольшое поле ввода, находящееся правее второго символа слэ¬ 
ша. При желании точно так же можно определить параметр «точка со¬ 
ответствует концу строки», введя символ т в это поле. Комбинация сим¬ 
волов іш активизирует оба параметра. Эти соглашения могут показать¬ 
ся недружественными для тех, кто не знаком с языком КиЬу, однако 
они соответствуют синтаксису /гедех/ іт, используемому в исходных 
текстах программ на языке КиЬу. 

Введите или скопируйте испытуемый текст в поле Ѵоиг 5Ігіпд (Ваша 
испытуемая строка) и подождите мгновение. В поле МаІсН ге5иІ1 (Резуль¬ 
тат поиска соответствия) появится испытуемый текст с выделенными 
фрагментами, соответствующими регулярному выражению. 
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Рис . 1.7. КиЪиІаг 


тугедехр.сот 

Сергеем Евдокимовым (8ег&еу Еѵйокітоѵ) было создано несколько 
приложений для разработчиков на языке ^ѵа, позволяющих тести¬ 
ровать регулярные выражения. На домашней странице Мір://ипѵіѵ. 
тугедехр.сот (рис. 1.8) предоставляется доступ к веб-приложению тес¬ 
тирования регулярных выражений. Это ^ѵа-апплет, который выпол¬ 
няется браузером. При этом необходимо, чтобы на компьютере клиента 
была установлена среда выполнения ^ѵа 4 (или более поздней версии). 
Для оценки регулярных выражений используется пакет ]аѵа. уШ. гедех, 
который впервые появился в версии ^аѵ8і 4. Под диалектом регулярных 
выражений « ^ѵа» подразумевается именно этот пакет. 

Регулярное выражение вводится в поле Кедиіаг Ехргеззіоп (Регулярное 
выражение). Желаемые параметры регулярного выражения устанав¬ 
ливаются с помощью меню Ріадз (Флаги). Кроме того, три параметра 
имеют собственные отдельные флажки. 

Если необходимо проверить регулярное выражение, уже имеющееся 
в исходном программном коде на языке ^ѵа, достаточно просто скопи¬ 
ровать строку целиком в буфер обмена, затем на странице тугедехр.сот 
щелкнуть на пункте меню ЕсИі (Правка) и выбрать пункт Ра 5 Іе Кедех Ргот 
Заѵа ЗЫпд (Вставить регулярное выражение из строки на языке ^ѵа). 
По завершении редактирования регулярного выражения в том же са¬ 
мом меню можно выбрать пункт Сору Кедех іЪг Заѵа 5оигсе (Копировать 
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регулярное выражение в формате строки на языке ^ѵа). В меню Есііі 
(Правка) имеются похожие команды для ^ѵаВсгірі; и ХМЬ. 


/9 Р^диіаг Ехргеіііоп ЕсіНог - Ѵ/іпЬом Іпіегпеі Ехріогег 




ИПр Уѵѵчѵ*.т) гедехр.сст' 





Гоііа мы 

р ^1 


& Ф & Кедиіаг Ьрге«іоп Егіііог » □ - яр * ^ Раде » Тооіі - 



Рис. 1.8. туге§ехр.сот 

Под полем ввода регулярного выражения имеются четыре вкладки, по¬ 
зволяющие производить разные виды испытаний: 

РіпсІ (Поиск) 

Выделяет все соответствия регулярному выражению, обнаружен¬ 
ные в испытуемом тексте. Эти соответствия отыскиваются с помо¬ 
щью метода МаІсНегГіпсІО языка ^ѵа. 

МаісЬ (Соответствие) 

Проверяет, соответствует ли весь испытуемый текст целиком ука¬ 
занному регулярному выражению. Если соответствует, выделяется 
весь текст целиком. Этот тест демонстрирует работу методов Зігіпд. 
таіхИезО и МаІісііег.таІсНезО. 

5рІі1 (Разбиение) 

Второе поле справа отображает массив строк, возвращаемых мето¬ 
дом Зігіпд.зрШО или РаНіегп.зрШО при использовании указанных 
вами регулярного выражения и испытуемого текста. 

Керіасе (Замена) 

После ввода замещающего текста в поле справа будет выведен текст, 
возвращаемый методом 3^гіпд.гер1асеА11() или МаІісИег. гер1асеА11(). 
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Другие приложения тестирования регулярных выражений, созданные 
Сергеем, можно отыскать с помощью ссылок, расположенных в верх¬ 
ней части страницы Ыір://іѵюю.туге§ехр.сот. Одно из них является мо¬ 
дулем расширения для среды программирования Есіірзе. 

Примеры настольных приложений 
тестирования регулярных выражений 

Ехрге$$о 

Ехргеззо (не следует путать с кофе езргеззо (эспрессо), богатым кофеи¬ 
ном) - это приложение для платформы .ЫЕТ, позволяющее создавать 
и тестировать регулярные выражения. Загрузить его можно по адресу 
кіір^/ьѵіѵіѵ.иІігарісо.сот/Ехргеззо.Мт. Для его работы на компьютере 
должна быть установлена платформа .ЫЕТ Егателѵогк 2.0 или более 
поздней версии. 

Для свободной загрузки доступна 60-дневная оценочная версия. По 
окончании оценочного периода необходимо зарегистрироваться, в про¬ 
тивном случае программа Ехргеззо перестанет работать. Регистрация 
выполняется бесплатно, но требует указать парням из ІЛІгарісо свой 
адрес электронной почты. Регистрационный ключ высылается по элект¬ 
ронной почте. 

Внешний вид приложения Ехргеззо приводится на рис. 1.9. Поле Кедиіаг 
Ехргеззіоп (Регулярное выражение), предназначенное для ввода регуляр¬ 
ных выражений, постоянно находится в зоне видимости. Подсветка син¬ 
таксиса отсутствует. В поле Кедех Апаіугег (Анализатор регулярного вы¬ 
ражения) автоматически создается краткий отчет о регулярном выра¬ 
жении на английском языке. Это поле также отображается постоянно. 

В нижней части вкладки Оезідп Мобе (Режим проектирования) имеется 
возможность устанавливать такие параметры поиска совпадений, как 
Ідпоге Сазе (Игнорировать регистр символов). Большую часть экранного 
пространства занимает линия вкладок, где можно выбирать элементы 
для добавления в регулярное выражение. При наличии двух мониторов 
или одного большого можно щелчком мыши на кнопке IIпбоек (Отде¬ 
лить) отделить линию вкладок, преобразовав ее в плавающую панель. 
Кроме того, регулярные выражения можно также создавать во вкладке 
Тез! Мобе (Режим тестирования). 

Во вкладке Тез! Мобе (Режим тестирования) следует ввести или вставить 
испытуемый текст в левый нижний угол и щелкнуть на кнопке Кип Ма!сН 
(Выполнить поиск соответствий), чтобы получить в поле ЗеагсН Кезиі!з 
(Результаты поиска) полный список всех соответствий. В испытуемом 
тексте ничего не выделяется. Чтобы выделить совпадение в испытуе¬ 
мом тексте, следует щелкнуть на совпадении в наборе результатов. 

Во вкладке Ехргеззіоп ЫЬгагу (Библиотека выражений) выводится спи¬ 
сок примеров регулярных выражений и список последних регулярных 
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выражений. Испытуемое регулярное выражение добавляется в этот спи¬ 
сок всякий раз, когда выполняется щелчок на кнопке Кип МаІсИ (Выпол¬ 
нить поиск соответствий). Библиотека допускает возможность редакти¬ 
рования посредством меню МЬгагу (Библиотека) в главном меню про¬ 
граммы. 


Ехргемо - Мо* гедІ5*ег«1, ехрігм оп МагсН 30, 2009 - 5атрІе.«о 
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Рис. 1.9. Ехргеззо 


Кедиіаіог 

Приложение Ке&иіаіог, которое можно загрузить по адресу НИр://$оиг- 
се{ог§е.пеі/ргоіесі8/ге§иІа1ог/, - это еще одно приложение на платформе 
.ЫЕТ, предназначенное для создания и тестирования регулярных вы¬ 
ражений. Последняя версия приложения требует наличия установлен¬ 
ной версии .ЫЕТ 2.0 или более поздней. Кроме того, доступны для за¬ 
грузки более старые версии приложения для .ЫЕТ 1.x. Ке&иіаіог - это 
открытое программное обеспечение, для приобретения которого не тре¬ 
буется платить деньги или проходить процедуру регистрации. 
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Вся функциональность приложения Ке&иіаіог доступна на единствен¬ 
ном экране (рис. 1.10). Вкладка №ѵѵ Ооситеп! (Новый документ) - это ме¬ 
сто, где вводится регулярное выражение. Подсветка синтаксиса выпол¬ 
няется автоматически, но синтаксические ошибки, присутствующие 
в регулярном выражении, не выделяются. Щелчком правой кнопки мы¬ 
ши вызывается контекстное меню, в котором можно выбирать добавляе¬ 
мые элементы регулярного выражения. Параметры регулярного выра¬ 
жения можно устанавливать с помощью кнопок на главной панели ин¬ 
струментов. Ярлыки на кнопках могут ввести в заблуждение, поэтому 
дожидайтесь появления всплывающей подсказки, чтобы определить 
назначение конкретной кнопки. 
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Рис. 1.10. Ке§иІаіог 

Ниже и правее области ввода регулярного выражения имеется кнопка 
Іприі (Ввод), щелчок на которой приводит к появлению области, куда 
можно вставить испытуемый текст. Щелчок на кнопке Керіасе ѵѵііН (За¬ 
менить на) открывает область ввода замещающего текста, используемо¬ 
го в операции поиска с заменой. Ниже и левее области ввода регулярно¬ 
го выражения выводятся результаты работы регулярного выражения. 
Результат не обновляется автоматически - чтобы обновить результат, 
необходимо щелкнуть на кнопке МаІсН (Сопоставить), Керіасе (Заменить) 
или Брііі (Разбить) в панели инструментов. Фрагменты в испытуемом 
тексте не выделяются. Щелчок на совпадении в списке результатов при¬ 
водит к выделению соответствующего фрагмента в испытуемом тексте. 

В панели Кедех Апаіуіег (Анализатор регулярного выражения) выводит¬ 
ся простой отчет о регулярном выражении на английском языке, но 
этот отчет не обновляется автоматически и не является интерактив¬ 
ным. Чтобы обновить отчет, следует выбрать пункт Кедех Апаіугег (Ана¬ 
лизатор регулярного выражения) в меню Ѵіеѵѵ (Вид), даже если панель 
анализатора видима. Щелчок мышью в панели анализатора приводит 
лишь к перемещению текстового курсора. 
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501. Кедех Риггег 

Из-за замысловатого названия 8БЬ Ке&ех Еиггег сложно догадаться 
о назначении этого приложения. Компания МісгозоН позиционирует 
его как «инструмент тестирования регулярных выражений на наличие 
уязвимостей для атак типа «отказ в обслуживании». Его можно загру¬ 
зить бесплатно по адресу кіір://и)іѵи).тісго 80 ?і.сот/еп-и 8 /(ІоитІоа( 1 / 
йеіаіІ8.а,8рх?і(1=20095. Для работы приложения требуется наличие уста¬ 
новленной на компьютере версии .ЫЕТ 3.5. 

В действительности, приложение 8БЬ Ке^ех Еиггег проверяет сущест¬ 
вование испытуемой строки, сопоставление с которой может вызвать 
экспоненциальный рост времени выполнения регулярного выражения. 
В нашей книге мы называем это катастрофическими возвратами ( саіа - 
8ігорНіс ЪаскігасЫпё). Подробнее об этой проблеме рассказывается в ре¬ 
цепте 2.15, где также будут представлены возможные решения. Регу¬ 
лярное выражение, подверженное проблеме катастрофических возвра¬ 
тов, может вызвать зависание или аварийное завершение приложения. 
Если приложение выполняется на сервере, эту уязвимость можно ис¬ 
пользовать для атак типа «отказ в обслуживании» (йепіаі-оі-зегѵісе, 
Б08). 

На рис. 1.11 представлены результаты тестирования в приложении 8БЬ 
Ке&ех Еиггег. В разделе 51ер 1 (Шаг 1) мы вставили регулярное выраже¬ 
ние из рецепта 2.15. Так как это выражение никогда не совпадет с не- 
А8СІІ символами, нет необходимости выбирать параметр в разделе 
51ер 2 (Шаг 2). В противном случае нам пришлось бы сделать это. В раз¬ 
деле 51ер 3 (Шаг 3) мы оставили количество итераций по умолчанию 
(100). Спустя примерно пять секунд после щелчка на кнопке 51аг1 (Пуск) 
в разделе 51ер 4 (Шаг 4) приложение 8БЬ Ке^ех Еиггег выведет пример 
строки, которая вызовет ошибку при сопоставлении в .ЫЕТ 3.5. 

К сожалению, практическая польза этого инструмента существенно 
ограничена из-за поддержки лишь небольшого подмножества синтак¬ 
сиса регулярных выражений .ЫЕТ. Когда мы попытались проверить 
упрощенное решение из рецепта 2.15, которое определенно было бы за¬ 
браковано этим тестом, мы получили сообщение об ошибке, как пока¬ 
зано на рис. 1.12. Надежное понимание концепций, обсуждаемых в ре¬ 
цепте 2.15, по-прежнему остается единственной гарантией, что вы не 
поставите подножку своим приложениям чрезмерно сложными регу¬ 
лярными выражениями. 
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^ 501 Кедех Риггег ѴІЛ..0 

Біер 1. 

Епіег ІЬе геаиізг ехргеззюп 
райет іо Ье іезіей 

БЭІ. Кедех Ригіег изез іЬе МЕТ 
ІгэййіопаІ №РА гедех епдіпе іо 
рейолп йзапаіуаз 


М*>*У 


Біер 2. 

СЬоозе а зеі оі зііаск сЬагасіегз 
іо Ье ікей Йилпд іи 2 гіпд 

ТЬе Іагдег іЬе зеі уои сЬоозе. іЬе 
тоге ассигеіе ІЬе гезіАз ѵ.*іІ Ье. 
Ьій ІЬе апаіузіз *лі аізо Ье зіоѵѵег. 


р Яейисей зеі Ы соттоп эйаск сЬагасіегз Яазіе^} 
О АЛ А5СІІ сЬагасіеге 

О Ай Угісойе сЬагасіеге (тозі іЬогоидЬ, Ьиі ѵегу зіоѵѵ) 


Біер 3. 

СЬоозе Ьоѵѵ талу Іиггіпд 
йегаіюпз іо рейост. 

ТЬе тоге йегаііопз, ІЬе тоге 
ассигаіе іЬе гезиЙз ѵѵй Ье. Ьиі ІЬе 
апаіузіз ѵѵій аізо Ье зкэѵѵег 

Біер 4. 

Біагі іигапд! 


Біер 5. 

ѴУай ѵѵЬиІе іЬе іипег рейогтз іЬе 
Іезіз 


Біер б. 

АпаЬ/ге іЬе гезикз Алу гедехез 
іЬаі ІаЙ аге роіелііаііу ѵиІпегаЫе 
іо йепіаі-оі-зегѵісе айаскз апсі 
зЬоиІсі Ье геѵѵгійеп. 


Раней іог еѵакізЬоп зіппд хххххтхх»ос<хеоссоссоао<х^^ 


Біер 7. (ОрііопаІ) 

РІе а Ьид. Уоц сап сгеаіе а Ьид 
апй айй і іо а МісгозоЙ Теат 
РоипйаЬол Бегѵегіеат ргоіесі. 


РІе а Ьод... 


Рис. 1.11. &ОІ, Ке§ех Риггег 



Еітог 


Ап еггог оссііггей ігуіпд іо іезі іЬе гедех: ТЬе РоІІоѵѵіпд соп5ігчсі5 аге 
сиггепііу поі хиррогіей: апсЬогз \С, \Ь, \В, патей дгоирБ, ІоокаНеай, 
ІоокЬеЬіпй, а5-Рел-Ііте$-а5-ро55ІЫе диапііРіегз, ЬаскгеРегепсез, 
сопйіііопаі аііетаііоп, зиЬ$іііиііоп 



Рис. 1.12. Ограничения в ЗБЬ Ке§ех Риггег 
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дгер 

Название §гер происходит от команды д/ге/р, которая выполняет поиск 
по регулярному выражению в текстовом редакторе ей в системе ІШІХ, 
одном из первых приложений, обеспечивших поддержку регулярных 
выражений. Эта команда оказалась настолько востребованной во всех 
системах ІШІХ, что была выделена в отдельную утилиту &гер , обеспечи¬ 
вающую поиск в файлах с использованием регулярных выражений. Ес¬ 
ли вы используете систему ІШІХ, Ілпих или 08 X, введите команду тап 
дгер в терминале, чтобы получить подробное описание этой утилиты. 

Следующие три инструмента являются приложениями ѴѴіпсІолѵз, кото¬ 
рые работают точно так же, как и утилита §гер , и обладают дополни¬ 
тельными возможностями. 

РоѵѵегСКЕР 

Программа РолѵегОКЕР была разработана Яном Гойвертсом ^ап Ооу ѵа- 
егЬз), одним из авторов этой книги. Это, пожалуй, одна из наиболее 
мощных реализаций утилиты дгер для платформы Д^іікіолѵз (рис. 1.13). 
Программа РолѵегОКЕР использует собственный диалект регулярных 
выражений, соединяющий в себе лучшие черты диалектов, рассматри¬ 
ваемых в этой книге. Этот диалект в программе Ке^ехВшМу помечен 
как «^зоН». 



Ч?Ж’1ІИР 


гігвав 




УЛѢ 


тяшк 


I Рст****СКО> • ((тай т МТМІ АпсНегѵрф] 1с.огСас(-рад«А1] 

АсЪоп І^аіу (<Мо- Нп*о*у ^ т* М«ір 


С: СП, «7/М7) 


» Ъ Ргодгш* Чв 
* V * ІЛ*г« (Л. 47ГН7) 
г РиЫс 

* «'В ѵм (7и ѵгнг. 


ІП4І N411 іп ИОД. *1>сКоГ4 


• <*2>0иуіл| йоме*^1КРч/кг> 


11 <Р>Р1*а*« *«« оиг <А НвЕ = «’ииуг>С!и.Ь(*1*>огО*гіпд раце*.</А> ?вг л 4е(аіІгЙ гър1ала*іоп о* ІИ* ѵагіои* орііол* уоѵ Наѵг Іо асяиіге оле 
аг «юг* Пс«Аі«< (о РомсгЭДЕР. Д11 іп*эг»ж\іоп аЬоит ргісіі^|, опІІм (Іл*егпе() *ч) эМІІле (рірегвэгк) огй*г1л§ міЬсИі сап Ь* 
Іоипд (Несе.</Р> 

И 

12 <Р>ІЕ уои Наѵ* а 9 ие»иол (На* і» по* ал«ыег«4 сп (Не агйег р#(*, уои сап гжаі] уэиг фдеКІоп *о 


13 СТТхА Н»ЕЕ« 


14 

13 <И2>Т*сИп1са1 &иррог*<'Н2> 

К 

17 <ТАШГ і*10ТН»254кТ1иТО «иг* *ау И На* Ь**п а рогіііѵ* «хре'Челсе 4оіп§ 

Ьиіілсіі «гіІН уоиг 

II сеорапу д Іо* оі сэарапіе» оѵ* (Неге ссиІЙ 1«ат а Іо* §ц| 

19 си**оо «г саг* ал4 *а(і**ас(ісп Ьу ^оііэміпі іп уоиг *оо(і(ер*. *<СЯ><М> 

21 -- Оапісі Аг»*паи1*<98> 

21 ЪпЬ%р,Ш04пр $ ЪЫпр17Л Ар«-11 2—Ъ, С*пмІа4/Тх./ТО></ТІх/ГА9іІ> 

22 

23 «РЛеІоч солЕасЕігф и» Ее г (есНпісаІ *иррог(, ріеаг* «Дс і* уои Наѵ* (Не 1а(е*( ѵеміая о* РоиегОАІР. І*ш ѵегііэлі ас* 

геіеаде) э*(ел 3«1ес* н*1р|СНеек Еог Нем ѴепІопі іп РивпЧіАЕР'і (эоІЬа- іо Наѵ* і* аи*ооа(іса11у ор*л а «*Ь ра*« (На* («11* уси 
«аНеІНег усѵ Наѵ* (Не 1а(е*( ѵсгаіол ог пс*. Уои сап а!*с ге*4 сА И*!*.'Кіі*сгу ѵ*г*іол Ні**э«у</Д> ол *Ьі» и«Ь 

*І*«.</Р> 


Рис . 1,13. РоіѵегОКЕР 
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Чтобы приступить к поиску с применением регулярного выражения, 
достаточно просто выбрать пункт Сіеаг (Очистить) в меню Асііоп (Опера¬ 
ция) и ввести регулярное выражение в поле БеагсН (Найти), находящее¬ 
ся в панели Асііоп (Операция). В панели Рііе Беіесіог (Выбор файла) щелч¬ 
ком мыши следует выбрать требуемый каталог, а в меню Рііе Беіесіог 
(Выбор файла) выбрать пункт Іпсіисіе Рііе ог РоИег (Включить файл или 
папку) или Іпсіисіе Роісіег апсі БиЬРоЫегз (Включить папку и подпапки). 
После этого можно выбрать пункт Ехесиіе (Выполнить) в меню Асііоп 
(Операция) и тем самым запустить процедуру поиска. 

Чтобы запустить поиск с заменой, после очистки операции следует вы¬ 
брать в раскрывающемся списке Асііоп Іуре (Тип операции), находя¬ 
щемся в левом верхнем углу панели Асііоп (Операция), пункт БеагсН-апсІ- 
Керіасе (Поиск с заменой). После этого ниже поля БеагсН (Найти) появит¬ 
ся поле ввода Керіасе (Заменить). В это поле следует ввести замещаю¬ 
щий текст. Все остальные шаги совпадают с выполнением операции 
поиска. 

Программа РолѵегОКЕР обладает уникальной возможностью одновре¬ 
менно использовать до пяти списков регулярных выражений, причем 
в каждом из списков может находиться произвольное число регуляр¬ 
ных выражений. В предыдущих двух абзацах описывается, как выпол¬ 
няются простые операции поиска, которые могут быть выполнены с по¬ 
мощью любой утилиты §гер, однако чтобы оценить весь потенциал 
РолѵегОКЕР, придется заняться чтением обширной документации к этой 
программе. 

Программа Ро\ѵег(ЖЕР работает в системах АЛГіпсіолуз 98, МЕ, 2000, ХР, 
Ѵізіа, 7 и 8. Вы можете бесплатно загрузить оценочную версию програм¬ 
мы по адресу НИр://іѵіѵіѵ.роіѵегдгер.сот/РоіѵегОКЕРСоокЪоок.ехе . За ис¬ 
ключением возможности сохранять результаты и библиотеки, оценоч¬ 
ная версия обладает полной функциональностью в течение 15 дней 
фактического использования. Но хотя оценочная версия не позволяет 
сохранять результаты, отображаемые в панели Кезиііз (Результаты), тем 
не менее она будет изменять содержимое файлов при выполнении опе¬ 
рации поиска с заменой, как и полнофункциональная версия. 

ѴѴіпсІоѵѵ5 Стер 

Программа ІЛЧпсіоауз Стер {Мір://іѵіѵіѵ.іѵіп§гер.сот) - один из старейших 
§гер- инструментов для ѴѴіпсіолѵз. Возраст программы проявляется в ее 
пользовательском интерфейсе (рис. 1.14), но она прекрасно справляется 
со всем, что заявлено. Она поддерживает ограниченный диалект регу¬ 
лярных выражений под названием Р08ІХ ЕКЕ. Следует отметить, что 
этот диалект поддерживает тот же синтаксис, что и диалекты, рассмат¬ 
риваемые в этой книге. Программа АА/ішіолѵз Стер относится к катего¬ 
рии условно бесплатного программного обеспечения (зЬагелѵаге), то есть 
вы можете бесплатно загрузить ее, но предполагается, что вы заплати¬ 
те за нее, если пожелаете ею пользоваться. 
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ЬеТоге уои гесеіѵе а регаопаі геріу ах Іап іх а Ьиху тап. ІТ уои Каѵе а хаіех шдиігу ог уэиг соттегйх аге аЬои? а хресіГіс ргосіисі, ріеахе 
ихе іЬе а^4геххе5 ІІ5?е4 эЬоѵе ТогТах? хегѵісе.</Р>-*> 


[ 


Рис. 1.14. ІѴіпсІоіѵз Огер 


Чтобы выполнить поиск, следует выбрать пункт ЗеагсИ (Найти) в меню 
ЗеагсЬ (Найти). Содержимое окна программы отличается в зависимости 
от выбранного в меню Орііопз (Параметры) режима: Ведіппег Мосіе (Ре¬ 
жим новичка) или Ехрегі; Мосіе (Режим эксперта). Для новичков предо¬ 
ставляется пошаговый мастер, а для экспертов - диалог с вкладками. 

По окончании подготовительных операций программа АѴіпсІочѵз Огер не¬ 
медленно приступает к поиску и представляет список файлов, в которых 
были обнаружены совпадения. Если щелкнуть на файле в списке, в ниж¬ 
ней панели можно увидеть найденные в нем соответствия, а двойной 
щелчок открывает файл. Чтобы нижняя панель была видна постоянно, 
следует выбрать пункт АН МаІхИез (Все соответствия) в меню Ѵіеѵѵ (Вид). 

Чтобы произвести поиск с заменой, в меню ЗеагсИ (Найти) следует вы¬ 
брать пункт Керіасе (Заменить). 

КедехКепатег 

Программа КедехКепатег (рис. 1.15) в действительности не является 
^гер-инструментом. Она не выполняет поиск по содержимому файлов, 
вместо этого она отыскивает и изменяет имена файлов. Программу мож¬ 
но загрузить по адресу Ыір://геёехгепатег.8оигсе^ог§е.пеі . Ке&ехКепа- 
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тег требует наличия установленной версии 2.0 или выше платформы 
МісгозоЛ .ЫЕТ Егателѵогк. 



СНапде Сазе 

ЫцтЬелпд 

Моѵе/Сору 


МаІсЬ 


Ргвѵіеѵ* 

ЬиіЫр! 

ЬиіИ_гіепю рі 
ЬиікІ_по4ераЬ рі 
кнлкігедехрі 
ЬиіІсі_гедех_оИрІ 
ЬиИ2004р! 

ЬиМ2226рІ 
ЬиИ_пе*рІ 
Ьийсіоіс) рі 
ЬиіІфгерНр рі 

Етаі_вп_НТМІ_Апсг*огз раз 

ідзоЙ с$з 
ідзойзесиге.сзз 


І_Ьспісі рі 

_ЬиЙсі_с1еілорІ 

Ьийсі_поІерасІ рі 

_ЬсяІсігедехрІ 

, , ЬиМ_педех_оИ рі 

^_, Ьиікі^С4 р4 

.ЫлІсі2!}С*з рі 

,_ЬийсІ-пе7ѵ.рІ 

, ЬиікЫсір) 

, ЬиікіргерЬррІ 

к _ . ЕтаУ іп НТМІ Мс^югзрд. 

О ід$оЙ с85 

ідзоЙзесцге сзз 


Щі СопІасЛз 
!Е Оезкіор 
ф~|Г; Ооситегйз 
|П 0оѵ.-пІоа<із 
ф" 1 ^ Раѵогйез 
! ] Упкз 
5 > Мцзіс 
| і. РкЛигез 
(\\ Заѵегі (Затее 
■ Р ЗеагсЬез 
% Ѵйеоз 
ѴѴІпгіоѵѵз 

6Ѵ0 ЯѵѴ Оіѵе (О.) 


В Сопігоі Рапе! 
РиЫіс 

В Меіѵѵоск 


РаНг С:\изег5\ѴМ\0осшіепІз 


Рис . 1.15. Ке§ехКепатег 


Регулярное выражение вводится в поле МаІхН (Соответствие), а заме¬ 
щающий текст - в поле Керіасе (Заменить). Чтобы включить режим не¬ 
чувствительности к регистру символов, следует установить флажок /і, 
а при включенном флажке /д производится замена не только первого, 
но и всех остальных найденных соответствий в каждом имени файла. 
Флажок /х включает режим игнорирования дополнительных пробелов, 
что само по себе малополезно, так как в поле регулярного выражения 
можно ввести только одну строку. 

Дерево каталогов слева используется для выбора папки с файлами, кото¬ 
рые требуется переименовать. В правом верхнем углу можно определить 
маску для файлов или регулярное выражение фильтра. Это позволяет 
ограничить перечень файлов, к именам которых будет применяться опе¬ 
рация поиска с заменой. Возможность использования одного регулярно¬ 
го выражения для фильтрации, а другого для выполнения операции 
поиска с заменой - преимущество по сравнению с попыткой решения 
обеих задач с помощью единственного регулярного выражения. 

Популярные текстовые редакторы 

Большинство современных текстовых редакторов обладает, по мень¬ 
шей мере, самой примитивной поддержкой регулярных выражений. 
В диалоге поиска или поиска с заменой обычно присутствует флажок, 
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включающий режим использования регулярного выражения. Некото¬ 
рые редакторы, такие как ЕсііІРай Рго, также используют регулярные 
выражения для обработки текста, например для организации подсвет¬ 
ки синтаксиса или создания списков классов и функций. Все эти осо¬ 
бенности редакторов описываются в сопроводительной документации. 
Ниже приводится список некоторых текстовых редакторов, обладаю¬ 
щих поддержкой регулярных выражений: 

• ВВЕсШ (РОКЕ) 

• Вохег Техі ЕсШог (РСКЕ) 

• Бгеашлѵеаѵег ^аѵавсгірі) 

• ЕсіііРасІ Рго (собственный диалект, вобравший в себя лучшие черты 
диалектов, рассматриваемых в этой книге. В программе Ке&ехВшЫу 
именуется «^зоН») 

• Миііі-Есііі (РСКЕ, если выбран параметр Регі) 

• Майз ДУгіІег Рго (КиЬу 1.9 [Опі^игита]) 

• Иоіерасі-Н- (РСКЕ) 

• ЫоІеТаЪ (РСКЕ) 

• ІШгаЕсШ (РСКЕ) 

• ТехІМаІе (КиЬу 1.9 [Опі&игита]) 





2 

Основные навыки владения 
регулярными выражениями 


Задачи, представленные в этой главе, не являются реальными задача¬ 
ми, которые будут ставить перед вами босс или ваши заказчики. Это, 
скорее, технические задачи, с которыми вы будете сталкиваться при 
создании регулярных выражений, предназначенных для решения прак¬ 
тических задач. Например, в первом рецепте объясняется, как с помо¬ 
щью регулярного выражения отыскать определенный текст и как обра¬ 
батывать символы, имеющие специальное значение в регулярных выра¬ 
жениях. Само по себе это не может быть целью, потому что нет никакой 
необходимости использовать регулярные выражения, когда требуется 
отыскать определенный текст. Однако при создании регулярных выра¬ 
жений вам наверняка потребуется отыскивать соответствия с опреде¬ 
ленным текстом, поэтому необходимо знать, какие символы следует эк¬ 
ранировать, а как раз об этом и рассказывается в рецепте 2.1. 

Первыми приводятся рецепты, описывающие очень простые приемы 
использования регулярных выражений. Если у вас уже имеется неко¬ 
торый опыт работы с регулярными выражениями, вы можете просто 
бегло просмотреть их или вообще пропустить. Последующие рецепты 
в этой главе определенно будут содержать новую для вас информацию, 
если, конечно, вы не прочитали от корки до корки книгу «Мазіегіп^ 
Ке^иіаг Ехргеззіопз» Джеффри Фридла ОІеНгеу Е. Е. Егіесіі), выпущен¬ 
ную издательством О’КеШу 1 . 

Мы придумывали рецепты для этой главы так, чтобы каждый из них 
описывал один аспект синтаксиса регулярных выражений. Все вме¬ 
сте они образуют законченный учебник по регулярным выражениям. 


1 Джеффри Фридл «Регулярные выражения», 3-е издание. - Пер. с англ. - 
СПб.: Символ-Плюс, 2008. 
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Рекомендуем прочитать его от начала до конца, чтобы твердо усвоить 
основы регулярных выражений. Однако можно сразу перейти к регу¬ 
лярным выражениям, имеющим практическую ценность, которые при¬ 
водятся в главах с 4 по 9, и возвращаться по ссылкам к этой главе при 
встрече с незнакомыми синтаксическими конструкциями. 

В этой вводной главе рассматриваются только регулярные выражения 
и полностью исключаются из рассмотрения какие-либо вопросы, свя¬ 
занные с программированием. Следующая глава наполнена листинга¬ 
ми программного кода. Вы можете заглянуть в раздел «Языки про¬ 
граммирования и диалекты регулярных выражений» главы 3, чтобы 
узнать, какой диалект регулярных выражений используется в вашем 
языке программирования. Сами диалекты, о которых будет говориться 
в этой главе, были представлены в главе 1 в разделе «Диалекты регу¬ 
лярных выражений, рассматриваемые в этой книге». 

2.1. Соответствие литеральному тексту 

Задача 

Создать регулярное выражение, в точности соответствующее следую¬ 
щему восхитительному предложению: ТГіе рипсіиаіііоп сііагасііегз іп ІІіе 
АЗСП ИаЫе аге: ! ,, #$%& , ()*+,--/:;<=>?@[\]Ѵ{|Г- 

Цель этого рецепта - познакомить вас с символами, имеющими специ¬ 
альное значение в регулярных выражениях, и с символами, которые 
всегда соответствуют самим себе. 

Решение 

Предложению, указанному выше, соответствует следующее регуляр¬ 
ное выражение: 

ТМе«рипс1:иа1:іоп«сІпа гасііе гз* іп •1:Ме* АЗСІІ *1:аЫе^а ге: * ^ 

!"#\$%&Л(\)\Л+.-\./:;<=>\?@\[\\]Ѵ_Л{\|}“ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

Любое регулярное выражение, в котором символы $()*+.?[ ѴЧ| отсутст¬ 
вуют, просто соответствует само себе. Например, чтобы отыскать в тек¬ 
сте фразу Магу Иасі а 1і1:1:1е ІатЬ, достаточно воспользоваться регуляр¬ 
ным выражением <Магу*Іпай*а*1і1:1:1е*1атЬ>. При этом совершенно неваж¬ 
но, установлен ли флажок Кедиіаг Ехрге$$іоп (Регулярное выражение) 
в диалоге поиска текстового редактора. 

Двенадцать знаков препинания, которые обеспечивают всю магическую 
силу регулярных выражений, называются метасимволами . Если необ¬ 
ходимо, чтобы регулярное выражение находило соответствие с этими 
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символами буквально, их следует экранировать, помещая перед ними 
символ обратного слэша. То есть регулярному выражению <\$\(\)\*\+Ѵ\?\ 
[\\Ѵ\{\І> соответствует текст $()*+. ?ГѴ{| . 

Обратите внимание, что в списке отсутствуют: закрывающая квадрат¬ 
ная скобка ], дефис - и закрывающая фигурная скобка }. Первые два 
символа интерпретируются как метасимволы, только если они стоят 
после неэкранированной открывающей квадратной скобки [, а } - толь¬ 
ко после неэкранированного символа {. Нет никакой необходимости эк¬ 
ранировать символ }. Правила использования метасимволов в блоках, 
заключенных между символами [ и ], описываются в рецепте 2.3. 

Экранирование любых других не алфавитно-цифровых символов не 
влияет на работу регулярного выражения; по крайней мере, это утвер¬ 
ждение справедливо для всех диалектов, рассматриваемых в книге. Эк¬ 
ранирование алфавитно-цифровых символов либо может придавать им 
особое значение, либо вызывать синтаксическую ошибку. 

Те, кто плохо знаком с регулярными выражениями, часто стремятся 
экранировать каждый знак препинания, попадающий в поле зрения. 
Не старайтесь показать всем, что вы - новичок. Разумно используйте 
экранирование. Частокол ненужных символов обратного слэша ослож¬ 
няет чтение регулярного выражения, особенно когда все эти символы 
обратного слэша требуется удваивать, чтобы представить регулярное 
выражение как строковый литерал в исходном тексте программы. 

Варианты 

Экранирование блока 

В диалектах, поддерживающих прием экранирования блока , есть воз¬ 
можность сделать решение более читаемым: 

ТІіе*рипс1:иа1:іоп*с1іагас1:егз*іп«ІІіе*АЗСІІ*1:аЫе*аге: 

\0! "#$%& - ()*+,-■ / :: <=>?@[\] V {I Г\Е 

Параметры: нет 

Диалекты: ^ѵа 6, РСКЕ, Регі 

Диалекты Регі, РСКЕ и Заѵа поддерживают конструкции <\0> и <\Е>. Кон¬ 
струкция <\0> подавляет интерпретацию всех метасимволов, включая 
и символ обратного слэша, пока не встретится конструкция <\Е>. Если 
опустить конструкцию <\Е>, все символы, находящиеся в регулярном вы¬ 
ражении после конструкции <\0>, будут интерпретироваться буквально. 

Единственное преимущество выражения <\0.. \Е> состоит в том, что его 
проще читать, чем <\.\.\.>. 


Хотя версии ^ѵа 4 и 5 поддерживают эту особенность, тем не менее 
лучше ею не пользоваться. Ошибки в реализации приводят к тому, 
что регулярному выражению с конструкцией <\0—\Е> соответствует 
совсем не то, что соответствует этому же регулярному выражению 
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в диалектах РОКЕ, Регі и 4аѵа 6. Эти ошибки были исправлены 
в версии 4аѵа 6, благодаря чему этот диалект дает тот же результат, 
что и диалекты РСКЕ и Регі. 


Сопоставление без учета регистра символов 

По умолчанию регулярные выражения чувствительны к регистру сим¬ 
волов. Выражению <гедех> соответствует текст гедех , но не Недех, РЕ6ЕХ 
или РеСеХ. Чтобы регулярному выражению <гедех> соответствовали все 
эти варианты, необходимо включить режим нечувствительности к ре¬ 
гистру символов. 

В большинстве приложений для этого достаточно установить или сбро¬ 
сить флажок. Все языки программирования, обсуждаемые в следую¬ 
щей главе, имеют флаг или свойство, с помощью которого можно управ¬ 
лять режимом чувствительности регулярного выражения к регистру 
символов. В рецепте 3.4, в следующей главе, описывается, как в про¬ 
граммном коде применять параметры регулярного выражения, соот¬ 
ветствующие приводимому в книге регулярному выражению. 

азсіі 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Заѵа, ЗаѵаЗсгірѣ, РСКЕ, Регі, РуЙюп, КиЬу 

Если режим нечувствительности к регистру символов не был включен 
за пределами регулярного выражения, это можно сделать с помощью 
модификатора режима <(?і)>, например < (?і) гедех>. Этот прием работает 
в диалектах .МЕТ, Заѵа, РСКЕ, Регі, РуНюп и КиЪу. При использовании 
библиотеки ХКе^Ехр его можно применять и в ЗаѵаВсгірѣ. 

(?і)азсіі 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуПюп, КиЬу 

Диалекты .МЕТ, Заѵа, РСКЕ, Регі и КиЬу поддерживают локальные 
модификаторы режима, которые воздействуют только на часть регу¬ 
лярного выражения. Например, регулярному выражению <зепзі1:іѵе(?і) 
сазе1езз(?-і)зепзі1:іѵе> соответствует текст зепзіІііѵеСАЗЕЕЕЗЗзепзіІііѵе , но 
не ЗЕМЗІТІѴЕсазеІеззЗЕМЗІТІѴЕ. Модификатор <(?і)> включает режим не¬ 
чувствительности к регистру символов до конца регулярного выраже¬ 
ния, а модификатор <(?-і)> отключает его до конца регулярного выраже¬ 
ния. Они действуют как простые переключатели. 

В рецепте 2.9 показано, как использовать локальные модификаторы ре¬ 
жима с группами. 

См. также 

Рецепт 2.3 описывает символьные классы. Внутри символьных классов 
используются иные метасимволы, чем за их пределами. 
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Рецепт 5.14 демонстрирует, как экранировать все метасимволы в строке 
при встраивании ее в регулярное выражение в качестве литерала. Для 
этого строка преобразуется в регулярное выражение, соответствующее 
строке буквально. 

В разделе «Пример решения на языке ^ѵа8сгір1» в рецепте 5.2 демон¬ 
стрируется пример кода на ^ѵаВсгірІ, экранирующий все метасимво¬ 
лы регулярных выражений. В некоторых языках программирования 
для этих целей существуют встроенные команды. 

2.2. Соответствие непечатным символам 

Задача 

Написать регулярное выражение, которому соответствовала бы строка, 
состоящая из следующих управляющих символов А8СІІ: Ъеіі, езсаре, 
Іогт Іеесі, Ііпе Іеесі, саггіа^е геіигп, Ііогігопіаі ІаЬ, ѵегіісаі ІаЬ. Эти сим¬ 
волы имеют следующие шестнадцатеричные коды А8СІІ: 07, 1В, ОС, 
0А, ОБ, 09, 0В. 

Этот рецепт демонстрирует, как использовать экранированные последо¬ 
вательности и ссылаться на символы по их шестнадцатеричным кодам. 

Решение 

\а\е\-Г\п\г\і\ѵ 

Параметры: нет 

Диалекты: .КЕТ, Лѵа, РСКЕ, РуІЬоп, КиЪу 

\х07\х1В\Г\п\г\1\ѵ 

Параметры: нет 

Диалекты: .КЕТ, ^ѵа, ^ѵабсгірі, РуІЬоп, КиЬу 

\а\е\Лп\г\1:\хОВ 

Параметры: нет 

Диалекты: .КЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Для представления семи наиболее часто используемых управляющих 
символов А8СІІ имеются специальные экранированные последователь¬ 
ности . Все они состоят из символа обратного слэша и следующей за 
ним буквы. Это тот же самый синтаксис, что используется во многих 
языках программирования для представления управляющих симво¬ 
лов в строковых литералах. В табл. 2.1 приводится перечень наиболее 
часто используемых непечатных символов и их представления. 

В версиях Регі 5.10 и выше и в РСКЕ 7.2 и выше не поддерживается эк¬ 
ранированная последовательность <\ѵ> (вертикальная табуляция). В этих 
диалектах <\ѵ> соответствует всем вертикальным пробельным символам, 
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в число которых входят: вертикальная табуляция, символы разрыва 
строк и разделители Юникода строк и абзацев. По этой причине в Регі 
и РСКЕ следует использовать иной синтаксис определения вертикаль¬ 
ной табуляции. 

Таблица 2.1. Непечатные символы 


Представ¬ 

ление 

Значение 

Шестнадцатеричное 

представление 

Диалекты 

<\а> 

Ъеіі 

0x07 

.КЕТ, ^ѵа, РСКЕ, Регі, 
РуіЬоп, КиЪу 

<\е> 

езсаре 

0x1В 

.КЕТ, ^ѵа, РСКЕ, Регі, 
КиЪу 

<ѵ> 

іотт ^еесі 

ОхОС 

.КЕТ, ^ѵа, ^ѵаЗсгірІ, 
РСКЕ, Регі, РуНюп, КиЪу 

<\п> 

Ііпе ^еесі 
(новая строка) 

ОхОА 

.КЕТ, ^ѵа, ^ѵаЗсгірі, 
РСКЕ, Регі, РуѣЬоп, КиЪу 

<\г> 

саггіа^е геѣигп 

ОхОБ 

.КЕТ, Лѵа, ^ѵаЗсгірі, 
РСКЕ, Регі, РуНюп, КиЪу 

<\Ъ 

Ьогігопіаі іаЪ 

0x09 

.КЕТ, ^ѵа, ^ѵаЗсгір!;, 
РСКЕ, Регі, РуіЬоп, КиЪу 

<\ѵ> 

ѵегіісаі іаЪ 

і 

і 

ОхОВ 

.КЕТ, ^ѵа, ^ѵаЗсгірі, 
РуѣЬоп, КиЪу 


Диалект ЗаѵаЗсгірі; не поддерживает последовательности <\а> и <\е>. По¬ 
этому в ЗаѵаЗсгірі; также необходимо использовать другое решение. 

Эти управляющие символы и альтернативный синтаксис, который де¬ 
монстрируется в следующем разделе, с одинаковым успехом могут ис¬ 
пользоваться в регулярных выражениях как внутри, так и за предела¬ 
ми символьных классов. 

Варианты представления непечатных символов 

26 управляющих символов 

Ниже приводится другой способ представления в регулярных выраже¬ 
ниях этих семи управляющих символов А8СП: 

\сС\х1В\сі.\сЛсМ\сі\сК 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, КиЪу 1.9 

С помощью последовательностей от <\сА> до <\с2> определяется соответ¬ 
ствие с любым из 26 управляющих символов, занимающим позицию от 
1 до 26 в таблице символов А8СІІ. Символ с должен указываться в ниж¬ 
нем регистре. Буква, следующая за ним, в большинстве диалектов мо¬ 
жет указываться в любом регистре, но мы рекомендуем всегда исполь- 
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зовать символы верхнего регистра. В диалекте ^ѵа это обязательное 
условие. 

Этот синтаксис может оказаться удобным, если вы привыкли вводить 
управляющие символы в консоли, нажимая клавишу Сігі одновременно 
с алфавитной клавишей. Комбинация клавиш СМ-Н в терминалах соот¬ 
ветствует символу забоя (Ъаскзрасе). В регулярных выражениях симво¬ 
лу забоя соответствует последовательность <\сН>. 

Этот синтаксис не поддерживается механизмом регулярных выраже¬ 
ний языка РуІЪоп и классическим механизмом КиЪу в КиЪу 1.8, но он 
поддерживается механизмом Опі^игата в КиЪу 1.9. 

Управляющий символ езсаре, занимающий позицию 27 в таблице А8СІІ, 
не имеет эквивалента в английском алфавите, поэтому в наших регу¬ 
лярных выражениях он представлен последовательностью <\х1В>. 

7-битный набор символов 

Ниже приводится еще один способ сопоставления со списком из семи 
управляющих символов: 

\х07\х1 В\х0С\х0А\х(Ю\х09\х0В 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵа8сгірТ, РСКЕ, Регі, РуІЪоп, КиЪу 

Последовательности из экранированного символа \х в нижнем регист¬ 
ре, за которым следуют две шестнадцатеричные цифры в верхнем реги¬ 
стре, соответствует один символ из набора А8СІІ. На рис. 2.1 показано 
соответствие шестнадцатеричных комбинаций от <\х00> до <\х7Р> и сим¬ 
волов из набора А8СП. Таблица упорядочена так, чтобы первая цифра 
в комбинации возрастала по направлению вниз, а вторая - вправо. 
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Рис. 2.1. Таблица символов А8СІІ 


Соответствие комбинациям от <\х80> до <\хРР> зависит от того, как они 
интерпретируются вашим механизмом регулярных выражений и в ка¬ 
кой кодировке набран испытуемый текст. Мы не рекомендуем исполь¬ 
зовать последовательности от <\х80> до <\хРР>. Вместо них лучше исполь¬ 
зовать кодовые пункты Юникода, описываемые в рецепте 2.7. 
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В случае применения КиЪу 1.8 или библиотеки РСКЕ, скомпилиро¬ 
ванной без поддержки кодировки ЦТЕ-8, воспользоваться кодовыми 
пунктами Юникода будет невозможно. КиЪу 1.8 и РСКЕ без под¬ 
держки ІІТЕ-8 представляют собой 8-битовые механизмы регуляр¬ 
ных выражений. Они ничего не знают о кодировках символов и мно¬ 
гобайтовых символах. Последовательность <\хАА> в этих механизмах 
просто соответствует байту со значением ОхАА независимо от того, 
представляет ли этот байт отдельный символ с кодом ОхАА или явля¬ 
ется частью многобайтового символа. 


См. также 

Рецепт 2.7, где описывается, как обеспечить совпадение регулярного 
выражения с конкретными символами Юникода. Если ваш механизм 
регулярных выражений поддерживает Юникод, этот способ можно так¬ 
же использовать для поиска непечатаемых символов. 

2.3. Сопоставление с одним символом 
из нескольких 

Задача 

Создать регулярное выражение, которому соответствовали бы любые 
ошибочные написания слова саіепсіаг, чтобы иметь возможность оты¬ 
скивать это слово в документе, не полагаясь на грамотность автора. 
Предполагается, что на месте любой гласной буквы может использо¬ 
ваться символ а или е. Создать второе регулярное выражение, которому 
соответствовала бы единственная шестнадцатеричная цифра. Создать 
третье регулярное выражение, которому соответствовал бы единствен¬ 
ный символ, не являющийся шестнадцатеричной цифрой. 

Цель этого рецепта - рассказать о такой важной и часто используемой 
конструкции, как символьный класс. 

Решение 

Ошибки в слове саіепсіаг 

с[ае]1[ае]пс1[ае]г 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

Шестнадцатеричная цифра 

[а-ТА-РО-9] 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЪоп, КиЪу 
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Нешестнадцатеричная цифра 

["а-ТА-РО-9] 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵаВсгірі;, РСКЕ, Регі, РуіЛюп, КиЪу 

Обсуждение 

Последовательность, заключенная в квадратные скобки, называется 
символьным классом. Символьному классу соответствует единственный 
символ, совпадающий с любым из перечисленных символов. В первом 
регулярном выражении указано три класса, каждому из которых соот¬ 
ветствует символ а или е. Это обеспечивает свободу выбора. Когда с помо¬ 
щью этого регулярного выражения проверяется слово саіепсіаг, первому 
символьному классу соответствует символ а, второму — ей третьему — а. 

Внутри символьных классов только четыре символа имеют специаль¬ 
ное назначение: \, ~, - и ]. В диалектах ^ѵа и .ЫЕТ открывающая квад¬ 
ратная скобка [ также является метасимволом внутри символьных 
классов. 

Символ обратного слэша всегда экранирует символ, следующий за ним, 
так же как и за пределами символьного класса. Экранированный сим¬ 
вол может представлять единственный символ, а также начало или ко¬ 
нец диапазона. Другие четыре метасимвола приобретают специальное 
назначение, только если находятся в определенной позиции. Они могут 
представлять литералы символов в символьных классах без дополни¬ 
тельного экранирования путем помещения их в позицию, где они утра¬ 
чивают специальное назначение. Выражение <[]["-]> иллюстрирует эту 
особенность. Она свойственна всем диалектам регулярных выражений, 
рассматриваемых в книге, кроме ^ѵаЗсгірі;, строго придерживающего¬ 
ся стандарта. Конструкция <[]> в ^ѵаЗсгірі; всегда интерпретируется как 
пустой символьный класс, который никогда не находит совпадений. Од¬ 
нако мы рекомендуем всегда экранировать эти метасимволы; предыду¬ 
щее регулярное выражение следовало бы записать так: <[\]\[ Ѵ\-]>. Экра¬ 
нирование метасимволов упрощает понимание регулярного выражения. 

Все остальные символы интерпретируются буквально и просто добав¬ 
ляют себя в символьный класс. Регулярному выражению <[$()*+. ?{|]> со¬ 
ответствует любой из девяти символов, перечисленных между квадрат¬ 
ными скобками. Эти девять символов приобретают специальное значе¬ 
ние только за пределами символьных классов. Внутри символьных 
классов они интерпретируются буквально. Их экранирование только 
ухудшит читаемость регулярного выражения. 

Алфавитно-цифровые символы не должны экранироваться обратным 
слэшем, так как в этом случае либо может возникать ошибка, либо мо¬ 
жет создаваться специальный символ (имеющий специальное значение 
в регулярных выражениях). В наших пояснениях к некоторым специ¬ 
альным символам, например в рецепте 2.2, мы указывали, что они могут 
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использоваться внутри символьных классов. Все эти специальные сим¬ 
волы состоят из слэша и символа, иногда сопровождаемых рядом дру¬ 
гих символов. Так, символьному классу <[\г\п]> соответствует символ 
возврата каретки \г или перевода строки \п. 

Символ крышки ~ в символьном классе означает отрицание, если он 
следует непосредственно за открывающей квадратной скобкой. Он обес¬ 
печивает соответствие символьному классу любых символов, которые 
отсутствуют в списке. 

Во всех диалектах, обсуждаемых в этой книге, инвертированному 
символьному классу соответствуют символы конца строки, если они 
отсутствуют в инвертированном символьном классе. Не позволяйте 
своим регулярным выражениям по ошибке продолжать поиск в мно¬ 
жестве строк. 



Символ дефиса (-) определяет диапазон , когда находится между двумя 
символами. Диапазон в символьном классе включает в себя символ, 
стоящий перед дефисом, символ, стоящий после дефиса, и все символы, 
расположенные между ними в порядке следования их числовых кодов. 
Чтобы узнать, какие числовые коды соответствуют символам, необхо¬ 
димо обратиться к таблице символов А8СІІ или Юникода. Символьный 
класс <[А-г]> включает в себя все символы, расположенные в таблице 
А8СІІ между символом верхнего регистра А и символом нижнего реги¬ 
стра 2 . Этот диапазон также включает в себя некоторые знаки препина¬ 
ния; так, символьному классу <[А-2\[\\\]\~_'а-2]> соответствуют те же са¬ 
мые символы, только объявлен он более явно. Мы рекомендуем созда¬ 
вать диапазоны, включающие только цифры или только буквы, причем 
только верхнего или только нижнего регистра. 



Перевернутые диапазоны, такие как <[ 2 -а]>, не допускаются. 


Варианты 

Сокращения 

Шесть специальных символов, состоящих из обратного слэша и следу¬ 
ющего за ним алфавитного символа, представляют сокращенную форму 
записи символьных классов : <\сі>, <\Э>, <\\л/>, <\ІлІ>, <\з> и <\3>. Их можно ис¬ 
пользовать как внутри, так и за пределами символьных классов. Каж¬ 
дой сокращенной форме записи, включающей символ нижнего регист¬ 
ра, соответствует сокращенная форма записи, включающая символ 
верхнего регистра, имеющая противоположный смысл. 

Так, последовательностям <\сІ> и <[\сІ]> соответствует один цифровой 
символ. Последовательности <\Э> соответствует любой символ, не явля¬ 
ющийся цифрой, а ее эквивалентом является запись <[~\сІ]>. 
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Вот как можно использовать сокращенную форму <;\сІ>, чтобы перепи¬ 
сать регулярное выражение, совпадающее с шестнадцатеричной циф¬ 
рой, представленное выше в этом рецепте: 

[а-ГА-РУІ] 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, РСКЕ, Регі, Руііюп, КиЪу 

Метасимволу <\ѵ/> соответствует один символ слова . Символ слова - это 
символ, который может входить в состав слова. Сюда относятся алфа¬ 
витные символы, цифры и символ подчеркивания. Такой набор симво¬ 
лов может показаться странным, но он был выбран таким, потому что 
из этих символов обычно составляются идентификаторы в языках про¬ 
граммирования. Метасимволу <\\л/> соответствует любой символ, кото¬ 
рый не может являться частью такого слова. 

В диалектах ^ѵа (в версиях с 4 по 6), ЗаѵаВсгірІ, РСКЕ и КиЪу метасим¬ 
вол <\\л/> всегда идентичен классу <[а-гА-20-9_]>. В .ЫЕТ он также включа¬ 
ет алфавитно-цифровые символы любых других алфавитов (кирилли¬ 
ца, тайский алфавит и прочие). В Заѵа 7 символы других алфавитов 
включаются, только если установлен флаг ІІМІС00Е_СНАНАСТЕРІ_СІАЗЗ. В Ру- 
ІЬоп 2.x символы других алфавитов включаются, только если при соз¬ 
дании регулярного выражения передавался флаг ІШССЮЕ или II. В Руі- 
Ьоп 3.x символы других алфавитов включаются по умолчанию, но есть 
возможность заставить <\ѵѵ> совпадать только с символами А8СІІ, если 
установить флаг АЗСІІ или А. В Регі 5.14 флаг /а (А8СІІ) превращает <\ѵѵ> 
в эквивалент символьного класса <[а-2А-20-9_]>, флаг /и (Шісойе) вклю¬ 
чает все алфавиты, поддерживаемые стандартом Юникода, а флаг /і 
(Іосаіе — локаль) делает метасимвол <\м> зависимым от текущих нацио¬ 
нальных настроек. В версиях Регі, предшествовавших версии 5.14, 
а также в версии Регі 5.14 (при использовании флага /сі (йеіаиіі - по 
умолчанию) или когда не используется ни один из флагов /асііи) мета¬ 
символ <\ѵѵ> автоматически включает алфавиты Юникода, если испы¬ 
туемая строка или само регулярное выражение закодировано в коди¬ 
ровке ІГГЕ-8, или если регулярное выражение включает коды символов 
со значениями выше 255, такие как <\х{100}>, или свойства Юникода, 
такие как <\р{1_}>. В противном случае метасимвол <\ю соответствует 
только символам А8СІІ. 

К метасимволу <\сІ> применяются те же правила во всех диалектах. 
В .ЫЕТ цифры из других алфавитов всегда включаются в класс. В Руі- 
Ьоп поведение этого метасимвола зависит от флагов ІШССЮЕ и АЗСІІ и от 
версии РуІЬоп — 2.x или 3.x. В Регі 5.14 его поведение зависит от флагов 
/асііи. В предыдущих версиях Регі оно зависит от кодировки испытуе¬ 
мой строки и регулярного выражения, а также от наличия каких-либо 
лексем Юникода. 

Метасимволу <\з> соответствует любой пробельный символ . Сюда входят 
символы пробела, табуляции и символы конца строки. Метасимволу 
<\3> соответствует любой символ, не соответствующий метасимволу <\$>. 
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В .ЫЕТ и ^ѵа8сгір1 метасимволу <\з> также соответствуют все симво¬ 
лы, определяемые стандартом Юникода как пробельные. В ^ѵа, Регі 
и РуЙюп метасимвол <\з> подчиняется тем же правилам, что и метасим¬ 
волы <\\л/> И <\СІ>. 

Примечательно, что в диалекте ^ѵа8сгір! для <\з> используется Юни¬ 
код, а для <\сІ> и <\м> - А8СІІ. Еще одно противоречие несет в себе мета¬ 
символ <\Ь>. Метасимвол <\Ь> не является краткой формой представле¬ 
ния символьного класса, а обозначает границу слова . Можно было бы 
ожидать, что <\Ь> поддерживает Юникод, когда эту кодировку поддер¬ 
живает метасимвол <\м>, и только А8СІІ, когда <\м поддерживает только 
А8СІІ, но это не всегда так. Подробнее об этом рассказывается в подраз¬ 
деле «Символы слов» в рецепте 2.6. 

Поиск без учета регистра символов 

( ?і )[А-РО-9] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЪу 

(?і)[~А-Р0-9] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЬу 

Нечувствительность к регистру символов, определяемая с помощью 
внешнего флага (рецепт 3.4) или с помощью модификатора режима 
внутри регулярного выражения (рецепт 2.1, раздел «Сопоставление без 
учета регистра символов»), также оказывает воздействие и на символь¬ 
ные классы. Только что представленные регулярные выражения экви¬ 
валентны регулярным выражениям, представленным в первоначаль¬ 
ном решении. 

Диалект ^ѵа8сгір! также следует этому правилу, но он не поддержива¬ 
ет модификатор <(?!)>. Чтобы отключить чувствительность регулярного 
выражения к регистру символов в Лѵа8сгір1, необходимо установить 
флаг /і при его создании или использовать библиотеку ХКе^Ехр, до¬ 
бавляющую поддержку модификаторов режимов в начале регулярных 
выражений. 

Особенности, характерные для разных диалектов 

Разность символьных классов в .ЫЕТ 

[а-2А-20-9-[д-20-2]] 

Параметры: нет 

Диалекты: .ЫЕТ 2.0 или выше 

Данному регулярному выражению соответствует одна шестнадцате¬ 
ричная цифра, но реализовано оно косвенным образом. Базовому сим¬ 
вольному классу соответствует любой алфавитно-цифровой символ, 
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а вложенному классу, который вычитается из базового, символы от д до 
2 . Вложенный вычитаемый класс должен находиться в конце базового 
класса и предваряться символом дефиса: <[с1азз-[зііЫ:гасі]]>. 

Операцию вычитания символьных классов удобно использовать, в ча¬ 
стности, при работе со свойствами, блоками и алфавитами Юникода. 
Например, выражению <\р{ІзТРаі}> соответствует любой символ тайско¬ 
го алфавита. Выражению <\Р{N}> соответствует любой символ, у которо¬ 
го отсутствует свойство №лтЪег. Разности этих двух классов <[\р{ІзТРаі}- 
[\Р{М}]]> соответствует любая из 10 цифр тайского алфавита. Более по¬ 
дробно о работе со свойствами Юникода рассказывается в рецепте 2.7. 

Объединение, разность и пересечение 
символьных классов в Іаѵа 

Диалект ^ѵа допускает вложение одного символьного класса в другой. 
При непосредственном включении одного символьного класса в другой 
получается объединение двух классов. Допускается создавать столько 
уровней вложения, сколько потребуется. Выражения <[а-1 = [А-Р] [0-9] ]> 
и < [а-Р[А-Р[0-9] ] ]> используют объединение символьных классов. Они со¬ 
ответствуют шестнадцатеричным цифрам, как и первоначальное выра¬ 
жение, но в них отсутствуют дополнительные квадратные скобки. 

Регулярное выражение <[\\л/&&[а-РА-Р0-9\з] ]> соответствует шестнадцате¬ 
ричным цифрам, используя пересечение символьных классов. Это вы¬ 
ражение могло бы получить приз в соревновании на самое запутанное 
выражение. Базовому символьному классу <[\м]> соответствует любой 
символ слова. Вложенному классу <[а-"ГА-Р0-9\з]> соответствует любая 
шестнадцатеричная цифра и любой пробельный символ. Результатом 
является пересечение двух классов, которому соответствуют только 
шестнадцатеричные цифры и ничто иное. Так как базовому классу не 
соответствуют пробельные символы, а вложенному классу не соответ¬ 
ствуют символы <[д-гС-2_]>, они исключаются из окончательного сим¬ 
вольного класса и остаются только шестнадцатеричные цифры. 

Выражение <[а-2А-20-9&&[~д-2б-2]]> использует разность символьных 
классов. Ему соответствует одна шестнадцатеричная цифра и тоже кос¬ 
венным образом. Базовому символьному классу <[а-гА-20-9]> соответст¬ 
вует любой алфавитно-цифровой символ. Вложенному классу <Гд-гС-2]>, 
который вычитается из базового, — символы от д до 2 . Этот вложенный 
класс инвертируется, и ему предшествуют два символа амперсанда: 
<[с1а55№[''зиЫ;гас1:]]>. 

Пересечение и разность символьных классов удобно использовать, в ча¬ 
стности, при работе со свойствами Юникода, блоками и алфавитами. 
Например, выражению <\р{ІзТИаі}> соответствует любой символ тайско¬ 
го алфавита. Выражению <\р{М}> соответствует любой символ, у которого 
присутствует свойство ЫитЬег. Последовательности < [ \р {IпТР аі }&&[\р {N}] ] > 
соответствует любая из 10 цифр тайского алфавита. 
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Если вас интересуют различия между возможными комбинациями <\р> 
в регулярных выражениях, их описание вы найдете в рецепте 2.7, где 
также подробно описываются тонкости работы со свойствами Юникода. 

См. также 

Рецепт 2.2, где описывается, как организовать поиск непечатаемых 
символов. В рецепте 2.7 рассказывается об особенностях сопоставления 
с символами Юникода. Синтаксис определения непечатаемых симво¬ 
лов и символов Юникода с успехом можно использовать в символьных 
классах. 

В разделе «Ваѣ, саѣ или гаѣ» в рецепте 5.3 описываются некоторые наи¬ 
более частые ошибки в символьных классах, допускаемые теми, кто 
только начинает осваивать регулярные выражения. 

2.4. Сопоставление с любым символом 

Этот рецепт объясняет достоинства и недостатки метасимвола «точка». 

Задача 

Создать регулярное выражение, которому соответствует любой символ, 
заключенный в одиночные кавычки. Одному решению должен соответ¬ 
ствовать любой одиночный символ, за исключением конца строки, за¬ 
ключенный в одиночные кавычки. Второму решению должен соответ¬ 
ствовать действительно любой символ, включая символы конца строки. 

Решение 

Любой символ, за исключением символа конца строки 


Параметры: нет (параметр «точке соответствуют границы строк» дол¬ 
жен быть сброшен) 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірѣ, РСКЕ, Регі, РуѣЬоп, КиЬу 

Любой символ, включая символы конца строки 


Параметры: точке соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуѣЪоп, КиЬу 

[\з\5] ’ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуѣЬоп, КиЬу 
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Обсуждение 

Любой символ, за исключением символа конца строки 

Точка - это один из старейших и простейших элементов регулярных 
выражений. Она означает обязательное соответствие любому одиночно¬ 
му символу. 

Однако не всегда очевидно, что означает фраза любой символ. Самые 
ранние инструменты, обеспечивающие поддержку регулярных выра¬ 
жений, обрабатывали содержимое файлов строку за строкой, поэтому 
отсутствовала потребность искать соответствие с концом строки в ис¬ 
пытуемом тексте. Языки программирования, рассматриваемые в этой 
книге, обрабатывают текст целиком, как единое целое, независимо от 
наличия в нем разрывов строк. Если действительно возникает потреб¬ 
ность производить обработку текста построчно, можно дополнить про¬ 
грамму кодом, который будет разбивать исходный текст на массив 
строк и затем применять регулярное выражение к каждой строке в мас¬ 
сиве. Как это делается, показано в рецепте 3.21 в следующей главе. 

Ларри Уолл (Ьаггу АУаІІ), создатель языка Регі, сохранил в языке Регі 
традиционное поведение инструментов построчной обработки текста, 
где точка никогда не соответствовала концу строки. Все остальные диа¬ 
лекты, рассматриваемые в этой книге, последовали его примеру. То 
есть регулярному выражению <. > соответствует любой одиночный сим¬ 
вол, за исключением символа перевода строки. 

Любой символ, включая символы конца строки 

Если необходимо позволить регулярному выражению обрабатывать сра¬ 
зу несколько строк, следует включить параметр «точке соответствуют 
границы строк». Этот параметр маскируется под разными названиями. 
В языке Регі и во многих других он носит сбивающее с толку название 
«режим единственной строки» (зіп^іе Ипе тосіе), тогда как в Лѵа он на¬ 
зывается «режим ‘точка - это все’» (‘сЫ аІГ тобе). Подробное описание 
этого вопроса вы найдете в рецепте 3.4 в следующей главе. Независимо 
от того, как называется этот параметр в вашем любимом языке про¬ 
граммирования, называйте его про себя режимом «точке соответству¬ 
ют границы строк». Это все, что дает данный параметр. 

Для ^ѵаЗсгірІ, где отсутствует параметр «точке соответствуют грани¬ 
цы строк», необходимо альтернативное решение. Как описывается в ре¬ 
цепте 2.3, метасимволу <\з> соответствуют любые пробельные символы, 
тогда как метасимволу <\8> соответствуют любые другие символы, не со¬ 
ответствующие метасимволу <\з>. Объединив их, можно получить сим¬ 
вольный класс <[\$\5]>, которому будут соответствовать любые симво¬ 
лы, включая символы конца строки. Тот же эффект дают символьные 
классы <[\СІ\Э]> и <[ \ѵѵ\\л/ ]>. 
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Злоупотребление точкой 

Точка является элементом регулярных выражений, которым злоупо¬ 
требляют наиболее часто. Выражение <\сі\сі .\сі\сІ .\сІ\с1> представляет не 
лучший способ поиска дат. Ему прекрасно соответствует дата 05/16/08 , 
но ему также соответствует текст 99/99/99 . Хуже того, ему соответствует 
число 12345678 . 

Регулярное выражение, которому соответствуют только корректные 
даты, - это тема для более поздней главы (см. рецепт 4.5). Но заменить 
точку на более подходящий символьный класс совсем несложно. Выра¬ 
жение <\сі\сі[/Л-]\с1\с1[/Л-]\с1\с1> позволяет использовать в качестве симво¬ 
ла-разделителя слэш, точку или дефис. Данному регулярному выраже¬ 
нию по-прежнему соответствует текст 99/99/99 , но число 12345678 уже не 
соответствует. 

Это просто совпадение, что в предыдущем примере точка включена 
в символьные классы. Внутри символьных классов точка интерпре¬ 
тируется буквально. В этом есть определенный смысл, так как в не¬ 
которых странах, например в Германии, точка используется в каче¬ 
стве символа-разделителя в датах. 

Точку следует использовать, только если действительно допускается 
совпадение с любым символом. Во всех остальных случаях лучше ис¬ 
пользовать символьные классы и инвертированные символьные классы. 

Варианты 

Ниже показано, как обеспечить совпадение с символом в одиночных 
кавычках, включая границы строк, с помощью встроенного модифика¬ 
тора режима: 

(?з)'.’ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуіЬоп 

(?т)Ѵ 

Параметры: нет 
Диалект: КиЪу 

Если не удалось включить режим «точке соответствуют границы строк» 
вне регулярного выражения, можно добавить модификатор режима в на¬ 
чало выражения. В рецепте 2.1 в подразделе «Поиск без учета регистра 
символов» мы объяснили концепцию модификаторов режима и говори¬ 
ли, что в ^ѵаВсгірі; они не поддерживаются. 

<(?з)> - это модификатор режима «точке соответствуют границы строк» 
в .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі и РуІЬоп. Символ з здесь обозначает 
режим «зіп&іе Ипе» (единственная строка), под которым в языке Регі 
подразумевается режим «точке соответствуют границы строк». 
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Терминология настолько запутывающая, что разработчик механизма 
регулярных выражений в языке КиЬу допустил ошибку. Для включе¬ 
ния режима «точке соответствуют границы строк» в КиЪу используется 
модификатор <(?т)>. Здесь используется другой символ, но функцио¬ 
нальность та же самая. Новый механизм в КиЪу 1.9 продолжает исполь¬ 
зовать модификатор <(?т)> для включения режима «точке соответствуют 
границы строк». Значение модификатора <(?т)> в языке Регі совершенно 
иное; оно описывается в рецепте 2.5. 

См. также 

Во многих случаях в действительности требуется не совпадение с лю¬ 
бым символом, а с любым символом из некоторого множества. Как это 
реализовать, описывается в рецепте 2.3. 

Рецепт 3.4, где объясняется, как устанавливать параметры, такие как 
«точке соответствуют границы строк» в исходном программном коде. 

При работе с текстом, содержащим символы Юникода, может оказать¬ 
ся предпочтительнее использовать метасимвол <\Х>, соответствующий 
графеме Юникода, а не «точку», которая совпадает с кодовым пунктом 
Юникода. Подробнее об этом рассказывается в рецепте 2.7. 

2.5. Сопоставление в начале 
и/или в конце строки 

Задача 

Создать четыре регулярных выражения. Первому выражению должно 
соответствовать слово аІрИа , но только если оно находится в самом нача¬ 
ле испытуемого текста. Второму выражению должно соответствовать 
слово отеда , но только если оно находится в самом конце испытуемого 
текста. Третьему выражению должно соответствовать слово Ьедіп , но 
только если оно находится в начале строки. Четвертому выражению 
должно соответствовать слово епсі, но только если оно находится в кон¬ 
це строки. 

Решение 

В начале испытуемого текста 

"аіріпа 

Параметры: нет (режим «символам Л и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуЙюп 

\Аа1рМа 

Параметры: нет 

Диалекты: .1ЧЕТ, Заѵа, РСКЕ, Регі, РуЙюп, КиЪу 
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В конце испытуемого текста 

отеда$ 

Параметры: нет (режим «символам " и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуЙюп 

отедаѴ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЪу 

В начале строки 

~Ьедіп 

Параметры: символам " и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ^ѵабсгірѣ, РСКЕ, Регі, РуЙюп, КиЬу 

В конце строки 

епй$ 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгір!;, РСКЕ, Регі, РуіЬоп, КиЬу 

Обсуждение 

Якорные метасимволы и строки 

Метасимволы регулярных выражений <~>, <$>, <\А>, <\2> и <\г> называются 
якорями . Они не соответствуют каким-либо символам; вместо этого они 
обозначают определенные позиции, фактически осуществляя привяз¬ 
ку регулярного выражения к этим позициям. 

Строка - это часть испытуемого текста, которая находится между на¬ 
чальной и конечной границами строки. Если в испытуемом тексте от¬ 
сутствуют границы строк, то весь текст рассматривается как одна стро¬ 
ка. Так, следующий текст состоит из четырех строк, по одной для слов 
опе и 1:\л/о, затем следует пустая строка и далее строка со словом ‘Гои г: 

опе 

1:\л/о 

^ои г 

В программном коде этот текст можно было бы представить так: опеПГРІ 
Ііѵю ІЩГРІ І'оиг. 

В начале испытуемого текста 

Якорному метасимволу <\А> всегда соответствует точка самого начала ис¬ 
пытуемого текста, непосредственно перед первым символом. Это единст¬ 
венное место в тексте, соответствующее данному метасимволу. Поместив 
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<\А> в начало регулярного выражения, можно проверить, начинается ли 
испытуемый текст с искомого текста. Символ «А» должен быть симво¬ 
лом верхнего регистра. 

Диалект ^ѵа8сгірі; не поддерживает метасимвол <\А>. 

Якорный метасимвол <~> является эквивалентом метасимвола \А> при 
условии, что параметр «символам ~ и $ соответствуют границы строк» 
отключен. Этот параметр отключен по умолчанию во всех диалектах 
регулярных выражений, за исключением КиЬу. КиЬу не предоставляет 
возможность отключать этот параметр. 

Если вы не используете диалект ^ѵа8сгірі, мы рекомендуем всегда 
вместо метасимвола <~> использовать метасимвол <\А>. Значение мета¬ 
символа <\А> никогда не изменяется, что позволяет избегать путаницы 
и ошибок при установке параметров регулярных выражений. 

В конце испытуемого текста 

Якорным метасимволам <\2> и <\г> всегда соответствует позиция в конце 
испытуемого текста непосредственно за последним символом. Помес¬ 
тив <\2> или <\г> в конец регулярного выражения, можно проверить, 
оканчивается ли испытуемый текст искомым текстом. 

Диалекты .ЫЕТ, ^ѵа, РСКЕ, Регі и КиЬу поддерживают оба метасимво¬ 
ла, <\2> и <\г>. Диалект РуЙюп поддерживает только метасимвол <\2>. 
Диалект ^ѵаЗсгірі не поддерживает ни один из них. 

Различия между метасимволами <\2> и <\ 2 > начинают проявляться, ко¬ 
гда в испытуемом тексте последним символом является символ конца 
строки. В этом случае метасимволу <\2> соответствует самый конец ис¬ 
пытуемого текста, после завершающего символа конца строки, а также 
позиция непосредственно перед этим символом конца строки. Преиму¬ 
щество состоит в том, что можно выполнить поиск <отеда\2>, не беспоко¬ 
ясь об удалении завершающего символа конца строки в конце испытуе¬ 
мого текста. При чтении содержимого файла строка за строкой одни 
инструменты включают символ конца строки, другие - нет; метасим¬ 
вол <\2> позволяет ликвидировать это различие. Метасимволу <\ 2 > соот¬ 
ветствует только самый конец испытуемого текста, поэтому он не будет 
совпадать с текстом в регулярном выражении, если в нем имеется за¬ 
вершающий символ конца строки. 

Якорный метасимвол <$> является эквивалентом метасимвола <\2> при 
условии, что параметр «символам л и $ соответствуют границы строк» 
отключен. Этот параметр отключен по умолчанию во всех диалектах 
регулярных выражений, за исключением КиЬу. КиЬу не предоставляет 
возможность отключать этот параметр. Так же как и <\2>, метасимволу 
<$> соответствует самый конец испытуемого текста, а также позиция пе¬ 
ред завершающим символом конца строки. 

Чтобы прояснить все эти тонкости и неясности, рассмотрим пример на 
языке Регі. Предположим, что переменная $/ (текущий символ-разде- 
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литель записей) имеет значение по умолчанию \п, тогда следующая ин¬ 
струкция на языке Регі прочитает одну строку, введенную с терминала 
(из потока стандартного ввода): 

$1іпе = <>; 

В языке Регі символ перевода строки будет сохранен в переменной $1іпе. 
Вследствие этого регулярное выражение, такое как <епс1*оГ*іприІ.\2>, не 
совпадет с содержимым переменной. Но совпадения будут обнаружены 
выражениями <епсЬо1Мпріі1:.Ѵ> и <епсІ*оГ*іпри1:.$>, потому что они игнори¬ 
руют завершающий символ перевода строки. 

Чтобы упростить обработку данных, программисты на языке Регі часто 
принудительно отбрасывают символ перевода строки инструкцией: 

сРотр $1іпе; 

После выполнения этой операции совпадение будет обнаружено всеми 
тремя выражениями. (Технически инструкция сілотр удаляет из строки 
текущий символ-разделитель записей.) 

Если вы не пользуетесь ^ѵаЗсгірІ, мы рекомендуем всегда применять 
метасимвол <\2> вместо <$>. Значение метасимвола <\2> никогда не изме¬ 
няется, что позволяет избегать путаницы и ошибок при установке пара¬ 
метров регулярных выражений. 

В начале строки 

По умолчанию метасимволу <~> соответствует позиция в начале испы¬ 
туемого текста, как и метасимволу <\А>. Только в КиЬу метасимволу <~> 
всегда соответствует начало строки. Во всех остальных диалектах необ¬ 
ходимо включать дополнительный параметр, чтобы символ крышки 
и знак доллара совпадали с границами строк. Этот параметр обычно на¬ 
зывается «многострочным» (тиІШіпе) режимом. 

Не следует путать этот режим с режимом «единственной строки», кото¬ 
рый более известен как режим «точке соответствуют границы строк». 
«Многострочный» режим оказывает влияние только на поведение сим¬ 
вола крышки и знака доллара, а режим «единственной строки» оказы¬ 
вает влияние только на поведение точки, как разъяснялось в рецеп¬ 
те 2.4. Нет ничего невозможного в том, чтобы одновременно включить 
«многострочный» режим и режим «единственной строки». По умолча¬ 
нию оба параметра отключены. 

При корректной установке параметра метасимволу <~> будет соответст¬ 
вовать позиция в начале каждой строки испытуемого текста. Строго го¬ 
воря, метасимвол будет совпадать с позицией непосредственно перед 
самым первым символом в файле, что происходит всегда, а также с по¬ 
зициями после каждого символа конца строки. Символ крышки в вы¬ 
ражении <\гГ> избыточен, потому что <~> всегда совпадает с позицией 
после <\п>. 
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В конце строки 

По умолчанию метасимволу <$> соответствует позиция только в конце ис¬ 
пытуемого текста или перед завершающим символом конца строки, как 
и метасимволу <\2>. Только в КиЪу метасимволу <$> всегда соответствует 
конец каждой строки. Во всех остальных диалектах необходимо вклю¬ 
чать дополнительный «многострочный» режим, чтобы символ крышки 
и знак доллара совпадали с границами строк. 

При корректной установке параметра метасимволу <$> будет соответст¬ 
вовать позиция в конце каждой строки испытуемого текста. (Безуслов¬ 
но, он также будет совпадать с позицией за самым последним символом 
в тексте, потому что эта позиция всегда считается концом строки.) Сим¬ 
вол доллара в выражении <$\п> избыточен, потому что <$> всегда совпада¬ 
ет с позицией перед <\п>. 

Совпадения нулевой длины 

Нет ничего необычного в том, чтобы регулярное выражение содержало 
только один или более якорных метасимволов. Такое регулярное выра¬ 
жение будет находить совпадение нулевой длины в каждой позиции, 
где будет обнаруживаться соответствие якорному метасимволу. При 
объединении нескольких якорных метасимволов все они должны сов¬ 
падать с одной и той же позицией, чтобы регулярное выражение нахо¬ 
дило соответствие. 

Такое регулярное выражение может использоваться в операции поиска 
с заменой. Замещение метасимволов <\А> или <Ѵ> позволяет добавлять 
что-либо в начало или в конец испытуемого текста. Замещение мета¬ 
символов Г> или <$> в режиме «символам " и $ соответствуют границы 
строк» позволяет добавлять что-либо в начало или в конец каждой стро¬ 
ки испытуемого текста. 

Комбинация двух якорных метасимволов позволит проверить наличие 
пустых строк или отсутствие ввода. Комбинации <\А\2> соответствует пус¬ 
тая строка, а также строка, состоящая из единственного символа перево¬ 
да строки. Комбинации <\А\і> соответствует только пустая строка. Ком¬ 
бинации <~$> в режиме «символам Л и $ соответствуют границы строк» 
будет соответствовать каждая пустая строка в испытуемом тексте. 

Варианты 

(?т)~Ьедіп 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуНюп 

(?т)епс1$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуНюп 



70 


Глава 2. Основные навыки владения регулярными выражениями 


Если нет возможности включить режим «символам " и $ соответствуют 
границы строк» вне регулярного выражения, в начало регулярного вы¬ 
ражения можно поместить модификатор режима. О модификаторах ре¬ 
жима и об отсутствии их поддержки в ^ѵаЗсгір! рассказывалось в ре¬ 
цепте 2.1 в подразделе «Поиск без учета регистра символов». 

<(?т)> - это модификатор режима «символам " и $ соответствуют грани¬ 
цы строк» в диалектах .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі и РуЫюп. Сим¬ 
вол т соответствует названию «тиІШіпе» (многострочный) режим, под 
которым в языке Регі подразумевается режим «символам Л и $ соответ¬ 
ствуют границы строк». 

Как уже говорилось выше, терминология оказалась настолько запуты¬ 
вающей, что разработчик механизма регулярных выражений в языке 
КиЬу допустил ошибку. Модификатор <(?т)> в языке КиЬу используется 
для включения режима «точке соответствуют границы строк». То есть 
в языке КиЬу модификатор <(?т)> не оказывает влияния на поведение 
якорных метасимволов <~> и <$>. В КиЬу метасимволам <~> и <$> всегда со¬ 
ответствуют начало и конец каждой строки. 

За исключением путаницы в символах модификаторов, в языке КиЬу 
выбор применения метасимволов <~> и <$> исключительно к границам 
строк следует признать удачным. Если вы не используете ^ѵаЗсгірѣ, 
мы рекомендуем придерживаться такого же выбора в своих регуляр¬ 
ных выражениях. 

Ян Гойвертс следовал этой идее при разработке программ ЕсШРасІ Рго 
и РодѵегСКЕР. В них вы не найдете флажок с надписью Л апсі $ таІсН аі 
Ііпе Ьгеакз (символам Л и $ соответствуют границы строк), хотя имеется 
флажок с надписью сіоі таІсЬез Ііпе Ьгеакз (точке соответствуют границы 
строк). Если добавить в начало регулярного выражения модификатор 
<(?-т)>, то, чтобы привязать регулярное выражение к началу или к кон¬ 
цу файла, необходимо будет использовать метасимволы <\А> и <\2>. 

См. также 

Рецепт 3.4, где объясняется, как устанавливать такие параметры, как 
«символам Л и $ соответствуют границы строк», в исходном коде про¬ 
грамм. 

Рецепт 3.21, где показано, как использовать процедурный код для по¬ 
строчной обработки текста с помощью регулярного выражения. 

2.6. Сопоставление с целыми словами 

Задача 

Создать регулярное выражение, которому соответствовало бы слово саі 
в тексте Му саі із Ьгомп, но которое не находило бы соответствие в словах 
саіедогу или ЬоЬсаІ. Создать еще одно регулярное выражение, которому 
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соответствовала бы последовательность саі: в тексте зіассаію, но которое 
не находило бы соответствие ни в одном из трех предыдущих случаев. 

Решение 

На границах слова 

\Ьса1:\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуіЪоп, КиЬу 

Не на границах слова 

\Вса1:\В 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵабсгірі;, РСКЕ, Регі, РуНюп, КиЪу 

Обсуждение 

На границах слова 

Метасимвол <\Ь> называется границей слова . Ему соответствует пози¬ 
ция начала или конца слова. Сам по себе этот метасимвол дает совпаде¬ 
ние нулевой длины. Метасимвол <\Ь> является якорным , точно так же 
как и метасимволы, представленные в предыдущем разделе. 

Строго говоря, метасимволу <\Ь> соответствуют следующие три позиции: 

• Перед первым символом испытуемого текста, если первый символ 
является символом слова. 

• После последнего символа испытуемого текста, если последний сим¬ 
вол является символом слова. 

• Между двумя символами испытуемого текста, когда один из них яв¬ 
ляется символом слова, а другой - нет. 

Чтобы выполнить поиск «только целого слова» с помощью регулярного 
выражения, нужно просто поместить искомое слово между двумя гра¬ 
ницами слов, как это предложено в решении <\ЬсаІ\Ь>. Первый метасим¬ 
вол <\Ь> требует, чтобы символ <с> находился в самом начале строки или 
после символа, не являющегося символом слова. Второй метасимвол 
<\Ь> требует, чтобы символ <1:> находился в самом конце строки или перед 
символом, не являющимся символом слова. 

Символы конца строки не являются символами слова. Поэтому мета¬ 
символ <\Ь> будет совпадать с позицией после символа конца строки, ес¬ 
ли сразу же вслед за ним располагается символ слова. Он также будет 
совпадать с позицией перед символом конца строки, если ему непосред¬ 
ственно предшествует символ слова. Благодаря этому слово, занимаю¬ 
щее всю строку, будет обнаружено в процессе поиска «только целых 
слов». На поведение метасимвола <\Ь> не влияет выбор «многострочного» 
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режима или наличие модификатора <(?т)>, что является одной из при¬ 
чин, почему в этой книге «многострочный» режим сопоставляется с ре¬ 
жимом «символам А и $ соответствуют границы строк». 

Ни в одном из диалектов, обсуждаемых в этой книге, нет отдельных ме¬ 
тасимволов, которым соответствовала бы позиция только в начале или 
только в конце слова. Однако в них нет никакой необходимости, если 
только вам не потребуется регулярное выражение, не содержащее ни¬ 
чего, кроме границы слова. Символы перед или после метасимвола <\Ь> 
в регулярном выражении помогут указать, с какой позицией будет сов¬ 
падать <\Ь>. Метасимвол <\Ь> в выражениях <\Ьх> и <!\Ь> мог бы совпадать 
только с началом слова. Метасимвол <\Ь> в выражениях <х\Ь> и <\Ь!> мог 
бы совпадать только с концом слова. А выражения <х\Ьх> и <! \Ы > никогда 
не будут находить соответствий. 

Если действительно потребуется обеспечить совпадение только в нача¬ 
ле слова или только в конце слова, для этого можно использовать опере¬ 
жающую или ретроспективную проверку. Подробнее об этих проверках 
рассказывается в рецепте 2.16. Этот прием невозможен в диалектах Звг 
ѵаЗсгір! и КиЬу 1.8, так как они не поддерживают ретроспективные 
проверки. Регулярное выражение <(?<!\\л/)(?=\м)> соответствует началу 
слова - оно требует, чтобы символ перед позицией совпадения не был 
символом слова, а символ за позицией совпадения, напротив, был сим¬ 
волом слова. Выражение <(?<=\\л/)(?!\ѵф действует с точностью до наобо¬ 
рот: оно соответствует концу слова, требуя, чтобы предыдущий символ 
был символом слова, а следующий, напротив, не был символом слова. 
Важно заметить, что для проверки отсутствия символа слова должна 
использоваться отрицательная проверка с помощью метасимвола <\ю 9 
а не положительная - с помощью метасимвола <\\л/>. Выражение <(?<!\ѵф 
соответствует началу сроки, так как перед началом строки отсутствует 
символ слова (как и любой другой символ). Но выражение <(?<=\М)> нико¬ 
гда не совпадет с началом строки. Выражение <(?!\ѵф соответствует кон¬ 
цу строки по той же самой причине. Поэтому две наши конструкции на 
основе проверок будут корректно совпадать с началом строки, если она 
начинается словом, и с концом строки, если она завершается словом. 

Не на границах слова 

Метасимволу <\В> соответствует любая позиция в испытуемом тексте, ко¬ 
торая не соответствует метасимволу <\Ь>. Отсюда следует, что метасим¬ 
волу <\В> соответствует любая позиция, не являющаяся началом или 
концом слова. 

Строго говоря, метасимволу <\В> соответствуют следующие пять пози¬ 
ций: 

• Перед первым символом испытуемого текста, если первый символ не 
является символом слова. 

• После последнего символа испытуемого текста, если последний сим¬ 
вол не является символом слова. 
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• Между двумя символами слова. 

• Между двумя символами, не являющимися символами слова. 

• Пустая строка. 

Выражению <\Всаі\В> соответствует последовательность символов саі 
в тексте зіассаіо, но не в текстах Му саі із Ьгомп, саіедогу или ЬоЬсаі. 

Чтобы выполнить поиск с условием, противоположным требованию 
«только целое слово» (то есть чтобы совпадение обнаруживалось в сло¬ 
вах зііассаію, саіедогу и ЬоЬсаі, но не обнаруживалось в тексте Му саі із 
Ьго\л/п), необходимо с помощью операции выбора объединить подвыраже¬ 
ния <\Всаі> и <саі\В> в выражение <\Всаі|саі\В>. Подвыражению <\Всаі> со¬ 
ответствует последовательность символов саі в словах зіассаіо и ЬоЬсаі. 
Подвыражению <саі\В> соответствует последовательность символов саі 
в слове саіедогу (и в слове зіассаіо, если подвыражение <\Всаі> не позабо¬ 
тилось о нем раньше). Оператор выбора рассматривается в рецепте 2.8. 

Символы слов 

За всеми этими разговорами о границах слов мы ничего не сказали 
о том, что такое символ слова . Символ слова - это символ, который мо¬ 
жет являться частью слова. В рецепте 2.3 в подразделе «Сокращения» 
говорилось о том, какие символы включены в состав символьного клас¬ 
са <\\л/>, который соответствует одному символу слова. К сожалению, для 
метасимвола <\Ь> история выглядит иначе. 

Несмотря на то что все диалекты, рассматриваемые в этой книге, под¬ 
держивают метасимволы <\Ь> и <\В>, тем не менее они по-разному опреде¬ 
ляют, какие символы являются символами слова. 

В диалектах .ЫЕТ, ^ѵаВсгірі, РСКЕ, Регі, РуЙюп и КиЪу метасимволу 
<\Ь> соответствует позиция между двумя символами, один из которых 
соответствует символьному классу <\м>, а другой - символьному классу 
<\ілі>. Метасимволу <\В> всегда соответствует позиция между двумя сим¬ 
волами, когда оба они соответствуют либо символьному классу <\\л/>, ли¬ 
бо символьному классу <\1лІ>. 

В диалектах ^ѵаВсгірІ, РСКЕ и КиЬу символами слов считаются толь¬ 
ко символы А8СП. Символьный класс <\м> в них идентичен классу <[а- 
гА-20-9_]>. При использовании этих диалектов можно выполнить поиск 
«только целого слова» в тексте, написанном на языке, где используют¬ 
ся исключительно символы от А до Ъ без диакритических знаков, на¬ 
пример на английском. Но эти диалекты не могут использоваться для 
поиска «только целых слов» в текстах на других языках, таких как ис¬ 
панский или русский. 

Диалект .ЫЕТ интерпретирует буквы и цифры из любых алфавитов как 
символы слова. В этих диалектах можно выполнить поиск «только це¬ 
лого слова» в текстах на любом языке, включая и те, которые не ис¬ 
пользуют латинский алфавит. 
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В языке РуПюп имеется возможность выбора. В РуНюп 2.x символы, не 
входящие в набор А8СІІ, могут включаться в поиск, только если при 
создании регулярного выражения был передан флаг IIN100ЭЕ или II. 
В РуІЬоп 3.x символы, не входящие в набор А8СІІ, включаются по умол¬ 
чанию, но их можно исключить, установив флаг А8СІІ или А. Эти флаги 
в равной степени воздействует на метасимволы <\Ь> и <\\л/> . 

В языке Регі включение в символьный класс <\м> символов А8СІІ или 
Юникода, цифр и подчеркиваний зависит от версии Регі и флагов /асііи. 
Подробнее об этом рассказывается в рецепте 2.3, в подразделе «Сокра¬ 
щения». Во всех версиях Регі поведение метасимвола <\Ь> полностью 
соответствует символьному классу <\\л/>. 

Диалект Заѵа отличается некоторой непоследовательностью. В версиях 
^ѵа 4-6 классу <\м> соответствуют только символы А8СІІ. В ^ѵа 7 по 
умолчанию классу <\м> соответствуют только символы А8СП, но если ус¬ 
тановить флаг 1ШС(ЮЕ_СНАРАСТЕВ_СЕАЗЗ, ему будут соответствовать и сим¬ 
волы Юникода. Однако метасимвол <\Ь> поддерживает Юникод во всех 
версиях Лѵа и может применяться при работе с любыми алфавитами. 
В версиях ^ѵа 4-6 выражению <\Ь\\л/\Ь> соответствует одна буква латин¬ 
ского алфавита, цифра или символ подчеркивания, который не являет¬ 
ся частью слова ни на одном языке. Выражение <\Ькошка\Ь> корректно 
совпадет со словом кошка в тексте на русском языке, потому что мета¬ 
символ <\Ь> поддерживает Юникод. Но выражение <\м+> не совпадет ни 
с одним русским словом в ^ѵа 4-6, потому что класс <\ю поддерживает 
только символы А8СІІ. 

См. также 

Рецепт 2.3, где описывается, какие символы соответствуют сокращен¬ 
ному символьному классу <\ю, соответствующему символу слова. 

Рецепт 5.1, где демонстрируется, как использовать границы слов для по¬ 
иска совпадений с целыми словами и как преодолевать проблемы, свя¬ 
занные с различиями поведения границ слов в разных диалектах регу¬ 
лярных выражений. 

2.7. Кодовые пункты Юникода, категории, 
блоки и алфавиты 

Задача 

С помощью регулярного выражения отыскать символ торговой марки 
(™), указав в нем кодовый пункт Юникода вместо копирования и встав¬ 
ки фактического символа. При желании можно копировать и вставлять 
сам символ; в конце концов, символ торговой марки — это всего лишь 
обычный литерал, несмотря на то, что его нельзя ввести с клавиатуры 
непосредственно. Литералы обсуждались в рецепте 2.1. 




2.7. Кодовые пункты Юникода, категории, блоки и алфавиты 


75 


Создать регулярное выражение, которому соответствовали бы любые 
символы из категории Юникода «Сиггепсу 8утЬо1» (символ денежной 
единицы). 

Создать регулярное выражение, которому соответствовали бы любые 
символы, принадлежащие блоку Юникода «Сгеек Ехіепбесі». 

Создать регулярное выражение, которому соответствовали бы любые 
символы, которые в соответствии со стандартом Юникода принадле¬ 
жат греческому алфавиту. 

Создать регулярное выражение, которому соответствовали бы графе¬ 
мы, то есть символы, состоящие из базового символа и дополнительных 
комбинационных знаков. 

Решение 

Кодовый пункт Юникода 

\и2122 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірѣ, РуіЬоп, КиЬу 1.9 

4)00002122 

Параметры: нет 
Диалекты: РуіЬоп 

Данные регулярные выражения будет работать в РуіЬоп 2.x, только если 
они будут оформлены как строка Юникода: іГ\и2122” или и”\ІІ00002122”. 

\х{2122} 

Параметры: нет 

Диалекты: ^ѵа 7, РСКЕ, Регі 

Библиотека РСКЕ должна быть скомпилирована с поддержкой ІЛТ-8; 
в языке РНР следует включить поддержку ТІТЕ-8 с помощью модифи¬ 
катора шаблона /и. 

\и{2122 > 

Параметры: нет 
Диалекты: КиЬу 1.9 

В КиЬу 1.8 регулярные выражения для работы с Юникодом не поддер¬ 
живаются. 

Категория Юникода 

\р{5с} 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ХКе^Ехр, РСКЕ, Регі, КиЬу 1.9 
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Библиотека РСКЕ должна быть скомпилирована с поддержкой ІІТЕ-8, 
в языке РНР следует включить поддержку ІІТЕ-8 с помощью модифика¬ 
тора шаблона /и. Диалекты ^ѵаЗсгірІ и РуНюп не поддерживают кате¬ 
гории Юникода. В КиЬу 1.8 регулярные выражения для работы с Юни¬ 
кодом не поддерживаются. 

Блок Юникода 

\р {ІзС геекЕхІіепсІесІ} 

Параметры: нет 
Диалекты: .ЫЕТ, Регі 

\р{ ІпбгеекЕхІіепсіесІ} 

Параметры: нет 

Диалекты: ^ѵа, ХКе^Ехр, Регі 

Диалекты ЛѵаЗсгірІ, РСКЕ, РуіЬоп и КиЬу 1.9 не поддерживают блоки 
Юникода. Они поддерживают кодовые пункты Юникода, которые мож¬ 
но использовать для сопоставления с блоками, как показано в разделе 
«Варианты» в этом рецепте. Диалект ХКе^Ехр добавляет поддержку 
блоков Юникода в ^ѵаЗсгірІ. 

Алфавит в Юникоде 

\р{6геек} 

Параметры: нет 

Диалекты: ХКе^Ехр, РСКЕ, Регі, КиЬу 1.9 

\р{ ІзО геек} 

Параметры: нет 
Диалекты: ^ѵа 7, Регі 

Для работы с алфавитами необходима библиотека РСКЕ версии 6.5 или 
выше, а кроме того, библиотека должна быть скомпилирована с под¬ 
держкой ІІТЕ-8. В языке РНР следует включить поддержку ІІТЕ-8 с по¬ 
мощью модификатора шаблона /и. Диалекты .ЫЕТ, ^ѵаЗсгірІ и РуІЬоп 
не поддерживают алфавиты Юникода. Диалект ХКе^Ехр добавляет под¬ 
держку алфавитов Юникода в ^ѵаЗсгірІ. В КиЬу 1.8 регулярные выра¬ 
жения для работы с Юникодом не поддерживаются. 

Графема в Юникоде 

\х 

Параметры: нет 
Диалекты: РСКЕ, Регі 

В диалектах РСКЕ и Регі имеется специальный метасимвол, соответст¬ 
вующий графемам. Библиотека РСКЕ должна быть скомпилирована 
с поддержкой ІІТЕ-8. В языке РНР следует включить поддержку ІІТЕ-8 
с помощью модификатора шаблона /и. 
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(?>\Р{М}\р{М}*) 

Параметры: нет 

Диалекты: ^ЕТ, Заѵа, КиЪу 1.9 

(?:\Р{М}\р{М}*) 

Параметры: нет 
Диалекты: ХКе^Ехр 

Диалекты .ЫЕТ, Лѵа, ХКе&Ехр и КиЬу 1.9 не имеют метасимвола, соот¬ 
ветствующего графемам. Но они поддерживают категории Юникода, 
посредством которых можно имитировать сопоставление с графемами. 

Диалекты ЗаѵаЗсгірі (без ХКе^Ехр) и РуІЬоп не поддерживают графе¬ 
мы Юникода. В КиЪу 1.8 регулярные выражения для работы с Юнико¬ 
дом не поддерживаются. 

Обсуждение 

Кодовый пункт Юникода 

Кодовый пункт - это одна запись в базе данных символов Юникода. Ко¬ 
довый пункт - это не символ ; впрочем, это зависит от того, какой смысл 
вкладывается в слово «символ». То, что на экране выглядит как символ, 
в Юникоде называется графемой . 

Кодовый пункт Юникода 11+2122 представляет символ «знака торговой 
марки». Его можно отыскать с помощью конструкции <\и2122>, <\и{2122}> 
или <\х{2122}> в зависимости от используемого диалекта регулярных вы¬ 
ражений. 

При использовании метасимвола <\и> необходимо указывать точно че¬ 
тыре шестнадцатеричные цифры. Это означает, что его можно исполь¬ 
зовать для поиска кодовых пунктов Юникода в диапазоне от 11+0000 до 
ІІ+ЕЕЕЕ. 

В конструкции <\и{—}> и <\х{ ■•■}> допускается указывать в фигурных скоб¬ 
ках от одной до шести шестнадцатеричных цифр, что обеспечивает под¬ 
держку всех кодовых пунктов в диапазоне от 11+000000 до ІІ+10ЕЕЕЕ. 
Кодовый пункт Ц+00Е0 будет соответствовать как выражению <\х{Е0}>, 
так и выражению <\х{00Е0}>. Кодовые пункты 11+100000 и выше исполь¬ 
зуются очень редко и в настоящее время весьма слабо поддерживаются 
шрифтами и операционными системами. 

Механизм регулярных выражений в РуІЬоп не поддерживает кодовые 
пункты Юникода. Литералы строк Юникода в РуІЬоп 2.x и литералы 
текстовых строк в РуЙіоп 3.x позволяют вставлять в них экранирован¬ 
ные последовательности, соответствующие кодовым пунктам Юнико¬ 
да. Последовательности от \и0000 до \иРРЕР представляют кодовые пунк¬ 
ты Юникода от Ц+0000 до Ц+ЕЕЕЕ. Последовательности от \1100000000 
до \ІІ0010РРЕЕ представляют все кодовые пункты Юникода. После мета¬ 
символа необходимо указывать точно восемь шестнадцатеричных 
цифр, даже для кодовых пунктов Юникода ниже Ц+ЮЕЕЕЕ. 
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При составлении регулярных выражений в виде строковых литералов 
в программе на языке РуіЬоп допускается использовать экранирован¬ 
ные последовательности <\и2122> и <\1Ю0002122> непосредственно в регу¬ 
лярных выражениях. Если регулярные выражения извлекаются из 
файла или вводятся пользователем, эти экранированные последова¬ 
тельности, обозначающие кодовые пункты Юникода, не будут рабо¬ 
тать, если передать прочитанную из файла или принятую от пользова¬ 
теля строку непосредственно в вызов ге.сотрі1е(). В РуіЬоп 2.x экра¬ 
нированные последовательности Юникода можно декодировать вызо¬ 
вом з^гіпд.сіесосіеСипісосІе-езсаре'). В РуІЬоп 3.x можно вызвать зіігіпд. 
епсосІеС’иІі^-в^-сІесосІеС ’ипісосіе-езсаре' ). 

Кодовые пункты могут использоваться внутри символьных классов 
и за их пределами. 

Категории Юникода 

Каждый кодовый пункт Юникода принадлежит единственной катего¬ 
рии Юникода. Всего существует 30 категорий Юникода, определяемых 
одно- или двубуквенными идентификаторами. Эти категории сгруппи¬ 
рованы в 7 суперкатегорий, определяемых однобуквенными идентифи¬ 
каторами: 

<\р{1_}> Любая буква любого языка. 

<\р{1_1}> Любая строчная буква, для которой имеется прописной ва¬ 
риант. 

<\р{І_и}> Прописная буква, для которой имеется строчный вариант. 

<\р{1_1:}> Начальная буква слова при условии, что капитализируется 
только первая буква слова. 

<\р{І_т}> Специальный символ, который используется как буква. 

<\р{І_о}> Символ или идеограмма, для которого отсутствуют вариан¬ 
ты нижнего и верхнего регистра. 

<\р{М}> Символ, который должен объединяться с другим символом 
(диакритические знаки, умляуты, описывающие рамки и пр.). 

<\р{Мп}> Символ, который должен объединяться с другим символом, 
не требующий дополнительного пространства (например, ди¬ 
акритические знаки, умляуты и пр.). 

<\р{Мс}> Символ, который должен объединяться с другим символом, 
требующий дополнительного пространства (например, огла¬ 
совки во многих восточных алфавитах). 

<\р{Ме}> Символ, описанный вокруг другого символа (окружность, 
квадрат, клавишный колпачок и пр.). 

<\р{2}> Любые типы пробельных символов или невидимых симво¬ 
лов-разделителей. 

<\р{2з}> Невидимые пробельные символы, занимающие дополни¬ 
тельное пространство. 
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<\р{21}> Символ-разделитель строк 11+2028. 

<\р{2р}> Символ-разделитель абзацев 11+2029. 

<\р{5}> Математические символы, знаки денежных единиц, декора¬ 
тивные элементы, символы для рисования рамок и пр. 

<\р{3т}> Любые математические символы. 

<\р{5с}> Любые знаки денежных единиц. 

<\р{3к}> Комбинационный знак (метка) как самостоятельный символ. 

<\р{5о}> Различные символы, которые не являются математически¬ 
ми знаками, знаками денежных единиц или комбинацион¬ 
ными символами. 

<\р{ И}> Различные числовые символы в любом алфавите. 

<\р{І\Ісі}> Цифры от 0 до 9 в любом алфавите, за исключением идеогра¬ 
фических алфавитов. 

<\р{М1}> Числа, которые выглядят как буквы, например римские 
цифры. 

<\р{І\Іо}> Надстрочные или подстрочные цифры или числа, не являю¬ 
щиеся цифрами 0...9 (кроме чисел из идеографических алфа¬ 
витов). 

<\р{Р}> Различные знаки пунктуации. 

<\р{ РсІ }> Различные тире и дефисы. 

<\р{Рз}> Различные открывающие скобки. 

<\р{Ре}> Различные закрывающие скобки. 

<\р{Рі}> Различные открывающие кавычки. 

<\р{ Р+}> Различные закрывающие кавычки. 

<\р{Рс}> Знаки пунктуации, например подчеркивание, соединяющее 
слова. 

<\р{Ро}> Различные знаки пунктуации, не являющиеся дефисами, 
тире, скобками, кавычками или символами, соединяющими 
слова. 

<\р{С}> Неотображаемые управляющие символы и неиспользуемые 
кодовые пункты. 

<\р{Сс}> Управляющие символы А8СІІ или ЬаНп-І в диапазонах 
0x00.. ,0х1Г и 0х7Е...0х9Г. 

<\р{С+}> Неотображаемые символы, являющиеся признаками форма¬ 
тирования. 

<\р{Со}> Кодовые пункты, предназначенные для закрытого примене¬ 
ния. 

<\р{Сз}> Одна половина суррогатной пары в кодировке ИТЕ-16. 

<\р{Сп}> Кодовые пункты, которым не присвоены символы. 

Комбинация <\р{1_1}> совпадает с одиночным кодовым пунктом из кате¬ 
гории І_1, или «Іолѵегсаве Іеііег» (символ нижнего регистра). Комбина- 
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ция <\р{1_}> является сокращенной формой записи символьного класса 
<[\р{И}\р{1и}\р{П:}\р{1т}\р{1о}]>, которому соответствует любой кодовый 
пункт из категории «Іеі+ег» (буква). 

Метасимвол <\Р> - это инвертированная версия метасимвола <\р>. Ком¬ 
бинации <\Р{1_1}> соответствует одиночный кодовый пункт, не относя¬ 
щийся к категории И. Комбинации <\Р{1_}> соответствует единственный 
кодовый пункт, не относящийся к суперкатегории «Іеі+ег» (буква). Эта 
комбинация не является аналогом символьного класса <[\Р{1_1}\Р{1_и}\ 
Р{І_1:}\Р{1_т}\Р{І_о}]>, которому соответствует любой кодовый пункт. Ком¬ 
бинации <\Р{1_1}> соответствуют кодовые пункты из категории І_и (или 
любым другим категориям, за исключением И), тогда как комбинация 
<\Р{І_и}> будет совпадать и с кодовыми пунктами из категории И. Объ¬ 
единение только этих двух комбинаций в символьный класс уже обес¬ 
печивает совпадение с любыми возможными кодовыми пунктами. 

* * В Регі, а также в библиотеке РСКЕ версии 6.5 и выше комбинацию 

** <\р{1_&}> можно использовать как сокращение для выражения 

<[\р{П}\р{Ги}\р{П:}]>, которому соответствуют все буквы из всех ал¬ 
фавитов, имеющие варианты верхнего и нижнего регистров. 


Блок Юникода 


Все кодовые пункты в базе данных символов Юникода подразделяют¬ 
ся на блоки. Каждый содержит отдельный диапазон кодовых пунктов. 
Кодовые пункты с 11+0000 по Ц+ГГЕТ делятся на 156 кодовых блоков 
в версии 6.1 стандарта Юникода: 


<11+0000. . . ІІ+007Р \р{ІпВазісІ_а1:іп}> 

<11+0080... ІІ+00РР \р{ІпІаІіп-15ирр1етеп1:}> 

<11+0100.. .ІІ+017Р \р{ІпІ_а1:іпЕх1:епсІесІ-А}> 

<11+0180... ІІ+024Р \р{ІпІ_а1:іпЕх1:епсіе(1-В}> 

<11+0250. . .0+02АР \р{ІпІРАЕхІіепзіопз}> 

<ІІ+02В0. . .ІІ+02РР \р{ІпЗрасіпдМо0іРіегІ_е1:1:ег5}> 
<0+0300...0+036Р \р{ІпСотЬіпіпдОіасгі!іса1Магкз}> 
<0+0370.. .0+03РР \р{ІпОгеекапсЮорІііс}> 

<0+0400...0+04РР \р{ІпСугі11іс}> 

<0+0500.. .0+052Р \р{ІпСугіІІісЗиррІетепІ:}> 
<0+0530...0+058Р \р{ІпАгтепіап}> 

<0+0590...0+05РР \р{ІпНеЬгеѵф 
<0+0600...0+06РР \р{ІпАгаЬіс}> 

<0+0700...0+074Р \р{ІпЗугіас}> 

<0+0750. . .0+077Р \р{ІпАгаЬісЗирр1етеп1:}> 

<0+0780...0+07ВР \р{ІпТПаапа}> 

<0+0700...0+07РР \р{ІпМКо}> 

<0+0800. . .0+083Р \р{ІпЗатагіііап}> 

<0+0840. . .0+085Р \р{ІпМапс!аіс}> 

<0+08А0. . .0+08РР \р{1пАгаЫсЕх1:еп0ес1-А}> 

<0+0900...0+097Р \р{1п0еѵападагі}> 

<0+0980...0+09РР \р{ІпВепда1і}> 
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<0+ОАОО. . .ІІ+0А7Р \р{ІпѲи гтикііі} > 

<0+0А80. . . ІІ+ОАРР \р{Іп6и]агаТі}> 

<0+0В00...0+0В7Р \р{ІпОгіуа}> 

<0+0В80...О+ОВРР \р{ІпТаті1}> 

<11+0000. . . ІІ+0С7Р \р{ ІпТеІиди >> 

<0+0080. . .0+0СРР \р{ІпКаппас1а}> 

<11+0000. . . 0+007Р \р{ІпМаІауаІат}> 

<0+0080... 0+0ЭРР \р{Іп8іпГіа1а>> 

<0+0Е00. . . 0+0Е7Р \р{ІпТІпаі>> 

<0+0Е80. . . О+ОЕРР \р{ІШао};> 

<и+0Р00... О+ОРРР \р{ІпТіЬеІіап}> 

<0+1000...0+109Р \р{ІпМуаптаг}> 

<0+ЮА0... 0+10РР \р{ІпСеогдіап}> 

<0+1100... 0+11РР \р{ІпНапдиЮато}> 

<0+1200...0+137Р \р{ІпЕШоріс}> 

<0+1380.. .0+139Р \р{ІпЕІіІпіорісЗиррІешепІ:}> 

<0+1 ЗАО. .. 0+13РР \р{1пС0егокее}> 

<0+1400.. .0+167Р \р{ІпОпіІ^іесІСапасііапАЬогідіпаІЗуІІаЬісз}> 

<0+1680...0+169Р \р{ІпОдОат}> 

<0+16А0...0+16РР \р{ІпРипіс}> 

<0+1700...0+171Р \р{ІпТадаІод}> 

<0+1720...0+173Р \р{ІпНапипоо>> 

<0+1740...0+175Р \р{ІпВиОіР}> 

<0+1760...0+177Р \р{ІпТадЬапма}> 

<0+1780...0+17РР \р{ІпК0тег}> 

<0+1800...0+18АР \р{ІпМопдоІіап}> 

<0+18В0. .. 0+18РР \р{ІпОпіЕіеОСапаОіапАЬогідіпа13у11аЬісзЕх1:епсІеО}> 
<0+1900. . . 0+194Р \р{1пИтЬи}> 

<0+1950...0+197Р \р{ІпТаіЕе}> 

<0+1980. . . 0+190Р \р{1пМемТаИие}> 

<0+19Е0...0+19РР \р{ІпК0тегЗутЬо1з}> 

<0+1А00...0+1А1Р \р{ІпВидіпезе}> 

<0+1А20...0+1ААР \р{ІпТаіТОат}> 

<0+1В00...0+1В7Р \р{ІпВа1іпезе}> 

<0+1В80... 0+1ВВР \р{ ІпЗипсІапезе} > 

<0+1ВС0...0+1ВРР \р{ІпВаТак}> 

<0+1000...0+1С4Р \р{ІпЕерсИа}> 

<0+1050...0+1С7Р \р{ІпОІСИікі}> 

<0+1000... 0+1ССР \р{ІпЗип0апезеЗирр1етеп1:}> 

<0+1000. . . 0+1СРР \р{ІпѴе0ісЕх1:еп5іопз}> 

<0+Ю00. . . 0+Ю7Р \р{ІпРМопеІіісЕхІіепзіопз}> 

<0+Ю80.. . О+ЮВР \р{ІпРИопеІіісЕхІіепзіопзЗиррІетепІ:}> 

<0+ЮС0. . .О+ЮРР \р{ІпСотЬіпіпдОіасгіІіісаІМагкзЗиррІетепІ:}> 

<0+1Е00... 0+1ЕРР \р{ІпЕаТіпЕхТеп0е0А00Шопа1}> 

<0+1Р00.. .0+1РРР \р{ ІпОгеекЕхІіепсІесі }> 

<0+2000...0+206Р \р{Іп0епега1РипсТиаТіоп}> 

<0+2070.. . 0+209Р \р{ІпЗирегзсгірІізапсІЗиЬзсгірііз>> 

<0+20А0...0+20СР \р{ІпСиггепсуЗутЬо1з}> 

<0+2000...0+20РР ХріІпСотЬіпіпдОіасгіТісаІМагкзРогЗутЬоІз}) 
<0+2100...0+214Р \р{ІпЕеЕЕег1іке5утЬоІ5}> 

<0+2150...0+218Р \р{ІпЫитЬегРогтз}> 




82 


Глава 2. Основные навыки владения регулярными выражениями 


<11+2190.. .ІІ+21РР \р{ІпАггомз}> 

<11+2200.. .ІІ+22РР \р{ІпМа1:Гіета1:іса10регаііогз}> 

<11+2300.. .ІІ+23РР \р{ІпМізсе11апеоизТес0піса1}> 

<11+2400. . .ІІ+243Р \р{ІпСопІ:гоІРісІіигез}> 

<11+2440. . . ГІ+245Р \р{IпОрІ:ісаІСГіа гас1:е гЯесодпіі;іоп}> 

<11+2460.. . ГІ+24РР \р{ІпЕпсІозесІАІрГіапитегісз>> 

<11+2500. . .ІІ+257Р \р{ІпВох0га\л/іпд}> 

<11+2580. . .ІІ+259Р \р{ІпВІоскЕІетепІіз}> 

<0+25А0.. .ІІ+25РР \р{Іпбеотеі:гісЗГіарез}> 

<11+2600.. . ІІ+26РР \р{ІпМізсе11апеоизЗутЬо1з}> 

<11+2700. .. ІІ+27ВР \р{Іп0іпдЬа1;з}> 

<11+2700. . .ІІ+27ЕР \р{ІпМізсе11апеоизМа10ета1:іса18утЬо1з-А}> 
<ІІ+27Р0.. .ІІ+27РР \р{ ІпЗиррІетепІіаІАг го\л/з-А}> 

<11+2800.. .ІІ+28РР \р{ІпВгаі11еРа1:1:егпз}> 

<11+2900... ІІ+297Р \р{ІпЗиррІетепІіаІАггоѵѵ/з-В}> 

<11+2980... ІІ+29РР \р{ІпМізсе11апеоизМа10ета1:іса13утЬо1з-В}> 
<0+2АОО... ІІ+2АРР \р{ ІпЗиррІетепѣаІМаІіГіетаІіісаІОре гаііо гз} > 
<ІІ+2В00.. .ІІ+2ВРР \р{ІпМізсе11апеоизЗутЬо1запс!Агго\л/з}> 
<11+2000.. .ІІ+2С5Р \р{Іп01адо1і1:іс}> 

<11+2060.. .ІІ+2С7Р \р{ІпІ_а1:іпЕх1:епсІесІ-С}> 

<Ы+2С80.. . 0+2СРР \р{ІпСор1:іс}> 

<11+2000.. . ІІ+202Р \р{Іп(ЗеогдіапЗиррІетепІ:}> 

<0+2030. . . Ы+207Р \р{1пТШпад0}> 

<11+2080. . .ІІ+200Р \р{ІпЕІіМіорісЕхІіепсІесІ}> 

<0+20ЕО. . .ІІ+20РР \р{ІпСугі11ісЕх1:епсІес1-А}> 

<11+2Е00... ІІ+2Е7Р \р{ІпЗирр1етеп1:а1Рипс1:иа1:іоп}> 

<ІІ+2Е80.. .ІІ+2ЕРР \р{ІпСОКВасІісаІзЗиррІетепІ:}> 

<0+2Р00... 0+2Р0Р \р{ІпКапдхіНас!іса1з}> 

<ІІ+2РР0.. .ІІ+2РРР \р{ІпісіеодгарГіісОезсгірѣіопСГіагасііегз}> 
<11+3000.. .11+ЗОЗР \р{ІпС0КЗутЬо1запс1Рипс1:иа1:іоп}> 

<11+3040... 11+309Р \р{ІпНігадапа}> 

<0+30А0...0+30РР \р{ІпКа*акапа}> 

<0+3100...0+312Р \р{ІпВоротоГо}> 

<11+3130.. .ІІ+318Р \р{ІпНапдиЮотраІііЬіІіІіуОато}> 

<0+3190...0+319Р \р{ІпКапЬип}> 

<0+31 АО... 0+31ВР \р{ІпВоротоРоЕх1:епсІесІ}> 

<0+3100... 0+31ЕР \р{ІпСОКЗі: гокез} > 

<0+31Р0... 0+31РР \р{ІпКаІакапаР0опеІісЕх1:епзіопз}> 

<0+3200.. .0+32РР \р{ІпЕпс1озесІС0КІе1:1:егзапсІМопІіГіз}> 
<0+3300... 0+ЗЗРР \р{ІпС0КСотра1:іЬі1і1:у}> 

<0+3400... 0+40ВР \р{ІпСОКОпі'ГіесІІсІеодгарГізЕхІіепзіопА}> 
<0+4000...0+40РР \р{ІпУізіпдНехадгатЗутЬо1з}> 

<0+4Е00... 0+9РРР \р{1пС0К0пШе010еодгар0з}> 

<0+А000...0+А48Р \р{ІпУіЗуІІаЬІез}> 

<0+А490...0+А4СР \р{ІпУіВаОісаІз}> 

<0+А4й0. . . 0+А4РР \р{ІпІ_ізи}> 

<0+А500...0+А63Р \р{ІпѴаі}> 

<0+А640. . .0+А69Р \р{ІпСугі11ісЕх1;епсІесІ-В}> 

<0+А6А0...0+А6РР \р{ІпВатит}> 

<0+А700.. .0+А71Р \р{ІпМосІі'ГіегТопеІе1:1:егз}> 

<0+А720.. .0+А7РР \р{ІпІ_а1:іпЕх1:епсіесі-0}> 




2.7. Кодовые пункты Юникода, категории, блоки и алфавиты 


83 


<ІІ+А800. . . ІІ+А82Р \р{ІпЗуІоі:іИадгі}> 

<ІІ+А830. . . ІІ+А83Р \р{ІпСоттопІпРісНитЬегРогтз}> 

<ІІ+А840. . . ІІ+А87Р \р{1пР0адз-ра} > 

<11+А880. . . ІІ+А80Р \р{ІпЗаигазМ1:га>> 

<ІІ+А8Е0. . .ІІ+А8РР \р{ІпОеѵападагіЕхІіепсІесІ>> 

<ІІ+А900. . . ІІ+А92Р \р{ІпКауаіиі}> 

<ІІ+А930. .. ІІ+А95Р \р{ІпРе]апд}> 

<ІІ+А960. .. ІНА97Р \р{ІпНапди13атоЕх1:епс1ес1-А>> 

<ІІ+А980. . . ІІ+А90Р \р{Шаѵапезе}> 

<11+АА00. . . 11+АА5Р \р{ІпСИат}> 

<ІІ+АА60. . . ІІ+АА7Р \р{ІпМуаптагЕхЕепсІесІ-А}> 

<ІІ+АА80.. .ІІ+ААйР \р{ІпТаіѴіеИ}> 

<ІІ+ААЕ0.. . ІІ+ААРР \р{ІпМее1:еіМауекЕх1:епзіопз}> 

<1)+АВ00. . . ІІ+АВ2Р \р{ІпЕ1:ІііорісЕх1:епс1ес1-А}> 

<ІІ+АВС0.. . 11+АВРР \р{ІпМееІіеіМауек}> 

<ІІ+АС00. .. У+07АР \р{ІпНапди15у11аЫез}> 

<ІІ+07В0. . . 11+07РР \р{ІпНапди13атоЕх1:епсІесІ-В}> 

<11+0800... ІІ+0В7Р \р{ІпНід03иггода1:ез}> 

<ІІ+0В80.. .ІІ+ЭВРР \р{ІпНідОРгіѵаІіеІІзеЗиггодаііез}> 

<11+0000... ІІ+ЭРРР \р{ІпЕо\л/Зиггодаіез}> 

<ІІ+Е000.. . ІІ+Р8РР \р{ІпРгіѵа1:еІІ5еАгеа}> 

<ІНР900.. . ІІ+РАРР \р{ІпСОКСотраІііЬіІіііуісіеодгаріпз}> 

<ІІ+РВ00.. . ІІ+РВ4Р \р{ІпАІрОаЬеІіісРгезепІіаІііопРогтз}> 

<ІІ+РВ50... ІІ+РОРР \р{ІпАгаЬісРгезеп1:а1:іопРогт5-А}> 

<1)+РЕ00.. . ІІ+РЕОР \р{ІпѴагіаІііопЗеІесІіогз}> 

<0+РЕ10. . .11+РЕ1Р \р{ІпѴег1:іса1Рогтз}> 

<0+РЕ20. . . ІІ+РЕ2Р \р{ІпСотЬіпіпдНа1ГМагкз}> 

<ІНРЕ30. . .ІІ+РЕ4Р \р{ІпСОКСотраІііЬіІіІіуРогтз}> 

<1)+РЕ50.. . ІІ+РЕ6Р \р{ІпЗта11РогтѴагіап1:з}> 

<ІІ+РЕ70.. . ІІ+РЕРР \р{ІпАгаЬісРгезепІіаІііопРогтз-В}> 

<ІІ+РР00.. .ІІ+РРЕР \р{ІпНа11 = ѵ\/іс11:0апс1Ри11\л/іс11:0Рогтз}> 

<11+РРР0... 0+РРРР \р{ІпЗресіа1з}> 

Блок Юникода - это единый и неразрывный диапазон кодовых пунк¬ 
тов. Хотя многим блокам присвоены имена алфавитов и категорий Юни¬ 
кода, тем не менее здесь нет 100% совпадения. Название блока лишь 
указывает на его основное назначение. 

Блок Сиггепсу не включает в себя знаки доллара и йены. По исторически 
сложившимся причинам они находятся в блоках ВазісІ_а1:іп и І_аііп-1 
Зирріетепі:. Но при этом оба знака попадают в категорию Сиггепсу ЗуітіЬоІ. 
Поэтому для поиска любых знаков денежных единиц вместо комбина¬ 
ции <\р{ІпСиггепсу}> следует использовать <\р{3с}>. 

Большинство блоков включают в себя кодовые пункты с неприсвоен¬ 
ными символами, которые попадают в категорию <\р{Сп}>. Никакие дру¬ 
гие категории Юникода и никакой алфавит не включают кодовые пунк¬ 
ты с неприсвоенными символами. 

Комбинация <\р{ІпВ1оскМате}> может использоваться в диалектах .ЫЕТ, 
ХКе^Ехр и Регі, а комбинацию <\р{ІзВ1оскМате}> надо использовать в диа¬ 
лекте ^ѵа. 
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Диалект Регі поддерживает вариант Із, но лучше использовать синтак¬ 
сис Іп, чтобы избежать путаницы. Для работы с алфавитами в Регі под¬ 
держиваются комбинации <\р{5с г ірІ}> и <\р{ІзЗс г ір1:}>, но не<\р{ІпЗсгірІ}>. 

В стандарте Юникода оговаривается, что имена блоков должны быть не¬ 
чувствительны к регистру символов и все различия, касающиеся про¬ 
белов, дефисов или символов подчеркивания, должны игнорироваться. 
К сожалению, большинство диалектов регулярных выражений не отли¬ 
чаются такой гибкостью. Все версии .ЫЕТ и ^ѵа 4 требуют записи имен 
блоков в «верблюжьей» нотации, как показано в списке выше. Версии 
Регі 5.8 и выше, а также ^ѵа 5 и выше допускают смешивать регистр 
символов. Диалекты Регі, ^ѵа и .ЫЕТ поддерживают также нотацию 
с дефисами и без пробелов, использованную в списке выше. Мы реко¬ 
мендуем использовать эту нотацию. Из диалектов, обсуждаемых в этой 
книге, только ХКе&Ехр и Регі 5.12 (и выше) полностью соответствуют 
требованиям стандарта Юникода в отношении пробелов, дефисов и сим¬ 
волов подчеркивания в именах блоков Юникода. 

Алфавит Юникода 

Каждый кодовый пункт, за исключением кодовых пунктов с неприсво¬ 
енными символами, является частью точно одного алфавита Юникода. 
Кодовые пункты с неприсвоенными символами не являются частью ни 
одного алфавита. Кодовые пункты со значениями до ЕГ+ЕЕЕЕ и с при¬ 
своенными символами принадлежат следующим 72 алфавитам, опре¬ 
деленным в версии 6.1 стандарта Юникода: 


<\р{Сотгтюп}> 

<\р{І_ерсРа}> 

<\р{ АгаЬіс }> 

<\р{І_ітЬи}> 

<\р{ Агтепіап }> 

<\р{1_і$и}> 

<\р{Ва1іпе$е}> 

<\р{Ма1ауа1ат}> 

<\р{Ватіш}> 

<\р{Мапс!аіс}> 

<\р{ВаТак}> 

<\р{Мее1:еі_Мауек}> 

<\р{ Вепдаіі }> 

<\р{Мопдо1іап}> 

<\р{ВоротоГо}> 

<\р{Муаптаг}> 

<\р{ВгаШе}> 

<\р{Ме\л/_Таі_І_ие}> 

<\р{Видіпе$е}> 

<\р{Мко}> 

<\р{ ВиИісІ }> 

<\р{0дИат}> 

<\р{Сапас1іап_АЬогідіпа1}> 

<\р{01_СГіікі }> 

<\р{СМат}> 

<\р{0гіуа}> 

<\р{СИегокее}> 

<\р{РМадз_Ра}> 

<\р{ Соріііс } > 

<\р{Ре^ апд}> 

<\р{Су гііііс }> 

<\р{Випіс}> 

<\р{Оеѵападагі}> 

<\р {8ата гіііап} > 

<\р{Е1:Шоріс}> 

<\р{3аи газОІ: га}> 

<\р{6еогдіап}> 

<\р{5іпРа1а}> 

<\р{61адо1Шс}> 

<\р{5ипс!апезе}> 

<\р{Огеек}> 

<\р {Зу1о1;і_Мад гі} > 

<\р{6и]ага1:і}> 

<\р{3угіас}> 

<\р{0и гтикГіі } > 

<\р{Тада1од}> 
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<\р{Иап}> 

<\р{ТадЬапѵѵа}> 

<\р{ Напдиі }> 

Лр{Таі_1_е}> 

<\р{Напипоо}> 

<\р{Таі_ТІіат}> 

<\р{НеЬгеѵф 

<\р {Таі_Ѵіе1: } > 

<\р{ Ні гадапа}> 

Ар{Таті1}:> 

<\р{ІпГіегі1:есІ}> 

<\р {Теіиди }> 

<\риаѵапезе}> 

<\р{ТРаапа}> 

<\р{ Каппасіа } > 

<\р{ТІпаі}> 

<\р { Каііакапа } > 

<\р{ТіЬе1:ап}> 

<\р {КауаИ_И} > 

<\р{ТіГіпадП} > 

<\р{КОте г}> 

<\р{Ѵаі}> 

<\р{І_ао}> 

<\р{Ѵі}> 

<\р{1_а1:іп}> 



Алфавит - это группа кодовых пунктов, используемых в различных 
системах письменности. Одни алфавиты, такие как ТІлаі, применяются 
только в одном языке человеческого общения. Другие, такие как 1_а1:іп, 
используются в нескольких языках. В некоторых языках применяется 
несколько алфавитов. Например, в Юникоде нет алфавита Трапезе, 
вместо этого предлагаются алфавиты Нігадапа, Каіакапа, Нап и І_а1іп, сим¬ 
волы из которых обычно используются при составлении документов на 
японском языке. 

Самым первым в списке, в нарушение алфавитного порядка следова¬ 
ния, указан алфавит Сотгтюп. Этот алфавит содержит все символы, об¬ 
щие для широкого диапазона алфавитов, такие как знаки препинания, 
пробел и различные вспомогательные символы. 

Диалект ^ѵа требует, чтобы имена алфавитов предварялись префик¬ 
сом Із, например <\р{ІзУі}>. В Регі префикс Із допускается, но не требу¬ 
ется. Диалекты ХКе^Ехр, РСКЕ и КиЬу не допускают использование 
префикса Із. 

В стандарте Юникода оговаривается, что имена алфавитов должны 
быть нечувствительны к регистру символов и все различия, касающие¬ 
ся пробелов, дефисов или символов подчеркивания, должны игнориро¬ 
ваться. К сожалению, большинство диалектов регулярных выражений 
не отличаются такой гибкостью. Форма записи имен алфавитов в «вер¬ 
блюжьей» нотации и с символами подчеркивания между словами под¬ 
держивается всеми диалектами, рассматриваемыми в этой книге, кото¬ 
рые поддерживают алфавиты Юникода. 

Графема Юникода 

Различия между кодовыми пунктами и символами становятся замет¬ 
ны, когда в игру вступают комбинированные знаки . Кодовому пункту 
11+0061 соответствует «строчная буква а латинского алфавита», а кодо¬ 
вому пункту Ц+ООЕО - «строчная буква а латинского алфавита с диак¬ 
ритическим знаком». В комбинации они представляют то, что боль¬ 
шинство людей назвали бы символом. 
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Кодовый пункт Ш-0300 - это диакритический знак. Он может исполь¬ 
зоваться только после буквы. Строка, состоящая из кодовых пунктов 
Ш-0061 11+0300, будет отображаться как символ а, так же как и кодо¬ 
вый пункт 11+00Е0. Комбинационный знак 11+0300 отображается над 
символом 11+0061. 

Причина появления двух разных способов отображения символа с диа¬ 
критическим знаком состоит в том, что уже давно существует множест¬ 
во кодировок символов, в которых символы с диакритическими знака¬ 
ми присутствуют в виде одиночных символов. Разработчики Юникода 
сочли, что будет полезно сохранить точное отображение устаревших на¬ 
боров символов в дополнение к способу, когда диакритические знаки от¬ 
деляются от базовых символов, который позволяет создавать произ¬ 
вольные комбинации, не поддерживаемые устаревшими кодировками. 

Для вас как для пользователя регулярных выражений это особенно 
важно, так как все диалекты регулярных выражений, рассматриваемые 
в этой книге, оперируют кодовыми пунктами, а не графическими симво¬ 
лами. Когда мы говорим, что <. > соответствует единственному символу, 
в действительности подразумевается соответствие единственному кодо¬ 
вому пункту. Если испытуемый текст будет состоять из двух кодовых 
пунктов 11+0061 11+0300, который в языках программирования, таких 
как Лѵа, может быть представлен строковым литералом "\и0061\и0300", 
точке будет соответствовать только кодовый пункт 11+0061, или символ 
а без диакритического знака 11+0300. А обоим кодовым пунктам будет 
соответствовать регулярное выражение <. .>. 

Диалекты Регі и РСКЕ предлагают специальный метасимвол <\Х>, кото¬ 
рому соответствует любая одиночная графема Юникода. По сути, это 
Юникод-версия метасимвола <•>. Метасимвол <\Х> обнаружит два совпа¬ 
дения в тексте а а независимо от того, как он будет закодирован. Если он 
будет закодирован как \и00Е0\и0061\и0300, первое совпадение будет соот¬ 
ветствовать символу \и00Е0, а второе - последовательности \и0061\и0300. 
Точка соответствует единственному кодовому пункту Юникода, и по¬ 
этому она найдет в такой строке три совпадения: \и00Е0, \и0061 и \и0300. 

Правила, определяющие, какие именно комбинации кодовых пунктов 
Юникода считаются графемами, очень сложны. 1 Вообще говоря, для 
поиска графем требуется обеспечить сопоставление с произвольным 
символом, не являющимся комбинационным знаком, и с произволь¬ 
ным комбинационным знаком, возможно, следующим за ним. Такое 
сопоставление можно обеспечить с помощью регулярного выражения 
<(?>\Р{М}\р{М}*)>, допустимого во всех диалектах, поддерживающих Юни¬ 
код, но не поддерживающих метасимвол <\Х>. Комбинация <\Р{М}> соот- 


1 Все эти тонкости описываются в приложении к стандарту «Ііпісосіе 8іап- 
сіагсі Ашіех #29» по адресу кіір://іѵіѵіѵ.ипісосІе.ог8/герогі8/іг29/. Дополни¬ 
тельные практические рекомендации по работе с графемами Юникода мож¬ 
но найти в разделе «Графемы и нормализация», в главе 6 книги «Програм¬ 
мирование на Регі, 4-е издание». 
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ветствует любому символу, не попадающему в категорию Маг к. Комби¬ 
нация <\р{М}*> соответствует всем следующим далее комбинационным 
знакам, если таковые имеются. 

Мы заключили эти два метасимвола в атомарную группу, чтобы исклю¬ 
чить возвраты при сопоставлении с <\р{М}*>, если следующий кодовый 
пункт не окажется комбинационным знаком. Выражение <\Х{2} > не сов¬ 
падет со строкой а а, потому что после совпадения двух букв с диакрити¬ 
ческими знаками с конструкцией <\Х{2}> для точки ничего не останется. 
По той же причине не совпадет со строкой а а и выражение <(?>\Р{М}\р{М}*) 
{2}.>. Но выражение <(?:\Р{М}\р{М}*){2}.> с несохраняющей группой совпа¬ 
дет со строкой а а, если она будет закодирована как \и00Е0\и0061\и0300. 
Во второй итерации группы <\р{М}*> совпадет с \и0300. Затем сопоставле¬ 
ние с точкой потерпит неудачу. Это вызовет возврат, что вынудит <\р{М}*> 
вернуть свое совпадение, после чего точка совпадет с УЮЗОО. 

Механизм регулярных выражений в ^ѵаЗсгірі; не поддерживает атомар¬ 
ную группировку. Эту особенность нельзя было добавить и в ХКе&Ехр, 
потому что при фактическом выполнении сопоставления ХКе&Ехр все 
еще опирается на механизм регулярных выражений ^ѵаЗсгірІ. Поэто¬ 
му при использовании ХКе&Ехр ближайшей имитацией метасимвола 
<\Х> является выражение <(?:\Р{М}\р{М}*)>. Из-за отсутствия поддержки 
атомарной группировки вам придется постоянно помнить, что <\р{М}*> 
может вызвать возврат, если за <(?:\Р{М}\р{М}*)> в регулярном выраже¬ 
нии следует конструкция, которая может совпасть с символом из кате¬ 
гории Маг к. 

Варианты 

Инвертированный вариант 

Метасимвол <\Р> является обратным для метасимвола <\р>. Например, 
комбинации <\Р{8с}> соответствует любой символ, не имеющий свойства 
Юникода «Сштепсу 8утЪо1». Метасимвол <\Р> поддерживается всеми 
диалектами, поддерживающими метасимвол <\р>, и применим для всех 
поддерживаемых категорий, блоков и алфавитов. 

Символьные классы 

Все диалекты, поддерживающие метасимволы <\и>, <\х>, <\р> и <\Р>, до¬ 
пускают их использование в символьных классах. В этом случае в класс 
добавляется символ, представленный кодовым пунктом, или символы, 
принадлежащие категории, блоку или алфавиту. Например, следую¬ 
щему регулярному выражению будет соответствовать символ, являю¬ 
щийся либо открывающей кавычкой, либо закрывающей кавычкой, 
либо символом знака торговой марки (ІЛ-2122) : 

[\р{Рі}\р{РГ}\и2122] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, КиЬу 1.9 
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[\р{Рі}\р{РГ}\х{2122} ] 

Параметры: нет 

Диалекты: ^ѵа 7, РСКЕ, Регі 

Перечисление всех символов 

Если диалект регулярных выражений не поддерживает категории 
Юникода, блоки или алфавиты, можно просто перечислить символы, 
составляющие требуемую категорию, блок или алфавит в виде символь¬ 
ного класса. Для блоков это выполняется очень просто: каждый блок - 
это просто непрерывный диапазон, заключенный между двумя кодовы¬ 
ми пунктами. Например, блок Сгеек Ехіепсіесі включает символы от 
И+1Е00 до ІІ+1ЕЕЕ: 

[\и1Р00-\и1РРР] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РуЙюп, КиЪу 1.9 

[\х{1Р00}-\х{1РРР}] 

Параметры: нет 

Диалекты: ^ѵа 7, РСКЕ, Регі 

Для большинства категорий и многих алфавитов эквивалентные сим¬ 
вольные классы будут представлять длинные списки из отдельных ко¬ 
довых пунктов и коротких диапазонов. Символы, входящие в любую из 
категорий и во многие алфавиты, разбросаны по всей таблице Юнико¬ 
да. Ниже приводится аналог алфавита Сгеек: 

[\и0370-\и0373\и0375-\и0377\и037А-\и0370\и0384\и0386\и0388-\и038А^-І 
\и038С\и038Е-\и03А1\и03АЗ-\и03Е1\и03Р0-\и03РР\иЮ26-\и102А\и1050-\иЮ61 и 
\иЮ66-\и106А\иЮВР\и1Р00-\и1Р15\и1Р18-\и1Р10\и1Р20-\и1Р45\и1Р48-\и1Р40и 
\и1Р50-\и1Р57\и1Р59\и1Р5В\и1Р50\и1Р5Р-\и1Р7й\и1Р80-\и1РВ4\и1РВ6-\и1РС4и 
\и1РС6-\и1Р03\и1Р06-\и1Р0В\и1Р00-\и1РЕР\и1РР2-\и1РР4\и1РР6-\и1РРЕ\и212би 
\и00010140-\и0001018А\и00010200-\и000Ю245] 

Параметры: нет 
Диалект: РуНюп 

Мы создали это регулярное выражение с помощью веб-приложения ІІпі- 
сосІеВеІ, находящегося по адресу Ніір://ипісосіе.ог§/сІ(іг/иШііу/ІІ8і-ипі- 
сойезеі.ізр. Мы ввели \р{Сгеек} в поле ввода Іприі: (Ввод), отметили флаж¬ 
ки АЬЬгеѵіаІе (Сократить) и Езсаре (Экранировать) и щелкнули на кнопке 
ЗНоѵѵ 5е1 (Показать множество). 

Только РуЙюп поддерживает этот синтаксис определения кодовых пунк¬ 
тов Юникода, как описывалось выше в разделе «Кодовый пункт Юнико¬ 
да». Чтобы это регулярное выражение можно было использовать в дру¬ 
гих диалектах, необходимо внести некоторые изменения. 

Регулярное выражение будет работать во многих других диалектах, ес¬ 
ли удалить из него кодовые пункты выше ТІ+ЕЕЕЕ: 
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[\и0370-\и0373\и0375-\и0377\и037А-\и0370\и0384\и0386\и0388-\и038А2 
\иО38С\иО38Е-\и03АТ\и03АЗ-\иОЗЕ1\иОЗР0-\иОЗРР\иЮ26-\и102А\иЮ50-\и-1061 ^ 
\иЮ66-\иЮ6А\и10ВР\и1Р00-\іі1Р15\и1Р18-\и1Р'Ш\и1Р20-\и1Р45\и1Р48-\и1Р40Д 
\и1Р50-\и1Р57\и1Р59\и1Р5В\и1Р50\и1Р5Р-\и1Р70\и1Р80-\и1РВ4\и1РВ6-\и1РС4Д 
\и1 РС6-\и1Р03\и1Р06-\и1Р0В\и1Р00-\и1РЕР\и1РР2-\и1РР4\и1РР6-\и1РРЕ\и2126] 

Параметры: нет 

Диалекты: .ЫЕТ, ._Іаѵа, .Іаѵайсгірі, РуіЬоп, КиЬу 1.9 

В диалектах Регі и РСКЕ используется иной синтаксис определения ко¬ 
довых пунктов Юникода. В оригинальном регулярном выражении сле¬ 
дует заменить <\иРРРР> на <\х{РРРР}> и <\ІІ0010РРРР> на <\х{10РРРР}>. Изменен¬ 
ное регулярное выражение может использоваться также в <1аѵа 7. 

[\х{0370}-\х{0373}\х{0375}-\х{0377}\х{037А}-\х{0370}\х{0384}\х{0386Ы 
\х{0388}-\х{038А}\х{038С}\х{038Е}-\х{03А1}\х{ОЗАЗ}-\х{03Е1}Д 
\х{03Р0}-\х{03РР}\х{1026}-\х{102А}\х{Ю5О}-\х{Ю61}\х{1066}-\х{106А}Д 
\х{ ЮВР}\х{1Р00}-\х{ 1Р15}\х{1Р18}-\х{1РЮ}\х{1Р20}-\х{1Р45}^1 
\х{1Р48}-\х{1Р40}\х{1Р50}-\х{1Р57}\х{1Р59}\х{1Р5В}\х{1Р50}\х{1Р5РЫ 
\х{1Р70}\х{1Р80}-\х{1РВ4}\х{1РВ6}-\х{1РС4}\х{1РС6}-\х{1 РОЗ}\х{1Рйб}-2 
\х{1Р0В}\х{1Р00}-\х{1РЕР}\х{1РР2}-\х{1РР4}\х{1РР6}-\х{1РРЕ}\х{2126}2 
\х{10140}-\х{10178}\х{10179}-\х{10189}\х{1018А}\х{10200}-\х{10245} ] 

Параметры: нет 

Диалекты: .Іаѵа 7, РСКЕ, Регі 


См. также 

Ыір://юіѵіѵ,ипісо(іе.огё - официальный веб-сайт консорциума ІІпісосіе 
Сопзогѣішп, где можно загрузить любые официальные документы, ка¬ 
сающиеся стандарта Юникод, таблицы символов и пр. 

Юникод - это обширная тема, которой посвящены целые книги. Одна 
из таких книг называется «ІІпісойе Ехріаіпесі», автор Джукка Корпела 
^икка К. Когреііа) (О’КеіИу). 

Мы не можем в одном разделе описать все, что необходимо знать о кодо¬ 
вых пунктах Юникода, свойствах, блоках и алфавитах. Мы даже не 
пытаемся объяснить, зачем вам это нужно - просто вам это нужно. 
Комфортная простота расширенной таблицы А8СІІ - необитаемое ме¬ 
сто в современном глобализованном мире. 

В разделах «Ограничение возможности ввода алфавитно-цифровыми 
символами (для любого языка)» (в рецепте 4.8) и «Ограничение числа 
слов» (в рецепте 4.9) описывается решение некоторых возникающих на 
практике задач с применением категорий Юникода. 
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2.8. Сопоставление 
с одной из нескольких альтернатив 

Задача 

Создать регулярное выражение, которому при многократном примене¬ 
нии к тексту Магу, Запе, апсі Зие ѵ\/еп! Ію Магу'з Ііоизе будут соответство¬ 
вать Магу, Цапе, Зие и снова Магу. Последующие попытки применения 
должны терпеть неудачу. 

Решение 

Магу | аапе|Зие 

Параметры: нет 

Диалекты: .ЫЕТ, ^аѵа., ^ѵа8сгір!, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

Символ вертикальной черты служит в регулярных выражениях для 
разделения нескольких альтернатив . При каждом последующем при¬ 
менении выражению <Магу^апе|Зие> будут соответствовать слова Магу, 
или Цаде, или Зие. Всякий раз ему будет соответствовать только одно 
имя, но каждый раз новое. 

Все диалекты регулярных выражений, рассматриваемые в этой книге, 
используют механизмы, управляемые регулярными выражениями. Ме¬ 
ханизм - это обычное программное обеспечение, реализующее поддерж¬ 
ку регулярных выражений. Термин управляемый регулярными выраже¬ 
ниями 1 означает, что прежде чем будет выполнен переход к следующе¬ 
му символу, для каждого текущего символа в испытуемом тексте будут 
опробованы все возможные перестановки регулярного выражения. 

Когда выражение <Магу^апе|Зие> впервые применяется к тексту Магу, 
^пе, апсі Зие мепі Ію Магу’з Іюизе, тут же обнаруживается совпадение 
Магу в начале строки. 

Когда то же самое выражение применяется к остатку строки, то есть 
после щелчка на кнопке РіпсІ Мех! (Найти далее) в текстовом редакторе. 


1 Другая разновидность механизмов - это механизмы, управляемые текстом . 
Главное отличие состоит в том, что механизм, управляемый текстом, посе¬ 
щает каждый символ в испытуемом тексте только один раз, тогда как меха¬ 
низм, управляемый регулярным выражением, может посещать каждый 
символ несколько раз. Механизмы, управляемые текстом, обладают более 
высокой производительностью, но поддерживают выражения, которые яв¬ 
ляются регулярными только в математическом смысле, как описывалось 
в начале главы 1. Замысловатые регулярные выражения в стиле языка Регі, 
которые делают эту книгу такой захватывающей, могут быть реализованы 
только при использовании механизма, управляемого регулярными выра¬ 
жениями. 
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механизм регулярных выражений попытается сопоставить <Магу> с пер¬ 
вой запятой в строке. Эта попытка завершится неудачей. Затем будет 
выполнена попытка найти совпадение с ^апе> в той же позиции, кото¬ 
рая также закончится неудачей. Попытка найти совпадение <5ие> с за¬ 
пятой также провалится. Только после этого механизм регулярных вы¬ 
ражений передвинется на один символ вперед. Сопоставление начнется 
с первого пробела, в результате поиск всех трех альтернатив также не 
увенчается успехом. 

Когда начнется сопоставление с символа попытка найти соответствие 
первой альтернативе <Магу> потерпит неудачу. Затем, опять же с символа 
начнется сопоставление альтернативы Оапе>. В результате будет най¬ 
дено соответствие Цапе, и механизм регулярных выражений объявит 
о победе. 

Обратите внимание, что соответствие Цапе было найдено несмотря на то, 
что в испытуемом тексте имеется еще одно вхождение имени Магу , а аль¬ 
тернатива <Магу> находится в регулярном выражении перед альтернати¬ 
вой ^апе>. По крайней мере, в данном случае порядок следования аль¬ 
тернатив в регулярном выражении не имеет значения. Регулярное вы¬ 
ражение находит самое первое слева соответствие. Оно просматривает 
текст слева направо, на каждом шаге пытается применить все альтер¬ 
нативы и останавливает попытки в первой же позиции в испытуемом 
тексте, где было обнаружено соответствие любой из альтернатив. 

Если выполнить еще одну попытку поиска в оставшейся части строки, 
будет найдено соответствие Зие. Четвертая попытка поиска обнаружит 
еще одно соответствие Магу . Если попробовать выполнить пятую попыт¬ 
ку поиска, она завершится неудачей, потому что ни одна из трех альтер¬ 
натив не обнаружит совпадение в оставшейся части строки з Іюизе. 

Порядок следования альтернатив в регулярном выражении имеет зна¬ 
чение, только когда две из них могут обнаружить соответствие в одной 
и той же позиции в строке. Например, регулярное выражение <^пе ^апеЪ 
имеет две альтернативы, которые совпадают с одной и той же позицией 
в тексте Нег пате із ^пеі. В регулярном выражении отсутствуют мета¬ 
символы границ слова. Поэтому тот факт, что <^апе> совпадает со словом 
^пеі в тексте Нег пате із ^пеі только частично, не имеет никакого зна¬ 
чения. 

Выражению < Эапе |Эапе1:> соответствует последовательность Цапе в тексте 
Нег пате із ^пеі, потому что механизм, управляемый регулярным вы¬ 
ражением, отличается нетерпеливостью . Кроме того, что испытуемый 
текст просматривается слева направо в поисках первого встретившегося 
совпадения; альтернативы в регулярном выражении точно так же про¬ 
сматриваются слева направо. Механизм прекращает поиск, как только 
обнаруживает первую совпавшую альтернативу. 

Когда выражение ^апе^апеЪ достигает символа ^ в тексте Нег пате із 
Эапеі:, обнаруживается соответствие с первой альтернативой, Шпе>. Вто¬ 
рая альтернатива даже не испытывается. Если предложить механизму 
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попытаться отыскать второе соответствие, в испытуемом тексте для 
дальнейшего просмотра останется только символ I. Поэтому не будет 
найдено соответствие ни с одной из альтернатив. 

Существует два способа воспрепятствовать альтернативе Оапе> похитить 
соответствие у альтернативы ОапеЪ. Первый способ состоит в том, что¬ 
бы поместить более длинную альтернативу на первое место: ^апе1^апе>. 
Более надежное решение заключается в том, чтобы явно определить 
выполняемые действия: в данном случае выполняется поиск имен, 
а имена - это целые слова. Регулярные выражения не распознают сло¬ 
ва, зато они распознают границы слов. 

Так, оба выражения <\^апе\Ь|\І^апеЛЬ> и <\^апе!\Ь|\Ыапе\Ь> совпадут 
со словом Цапеі: в тексте Нег пате із ^пеѣ. Благодаря привязке к грани¬ 
цам слова совпасть смогла только одна альтернатива. Порядок следова¬ 
ния альтернатив опять оказался несущественным. 

В рецепте 2.12 описывается более надежное решение: <\ьиапе1:?\Ь>. 

См. также 

Рецепт 2.9, где рассказывается, как группировать части регулярных 
выражений. Группировка становится необходимой, когда требуется 
вставить несколько альтернатив в середину регулярного выражения. 

2.9. Группы и сохранение части совпадения 

Задача 

Улучшить регулярное выражение, соответствующее именам Магу , Цапе 
и 8ие, так, чтобы найденные совпадения были целыми словами. Приме¬ 
нить группировку, чтобы добиться этого эффекта за счет использова¬ 
ния одной пары метасимволов границы слова во всем регулярном выра¬ 
жении вместо одной пары для каждой альтернативы. 

Создать регулярное выражение, которому соответствовали бы любые 
даты в формате уууу-ппп-сЫ и которое сохраняет по отдельности год, 
месяц и день. Цель состоит в том, чтобы облегчить работу с отдельными 
значениями в программном коде, обрабатывающем совпадение. Будем 
исходить из предположения, что все даты, присутствующие в испытуе¬ 
мом тексте, корректны. Регулярное выражение не должно исключать 
такие даты, как 9999-99-99, так как они вообще не будут появляться 
в испытуемом тексте. 

Решение 

\Ь(МагуЫапе|Зие)\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 




2.9. Группы и сохранение части совпадения 


93 


\Ь (\сі\сі\сІ\сі) - ('\0\сі) - ('УЛО )\ь 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

Оператор выбора, о котором говорилось в предыдущем разделе, имеет 
самый низший приоритет среди всех операторов регулярных выраже¬ 
ний. Например, если записать выражение <\ЬМагу^апе|Зие\Ь>, в нем по¬ 
лучится три альтернативы: <\ЬМагу>, <^апе> и <Зие\Ь>. Данное регулярное 
выражение будет обнаруживать совпадение Цапе в тексте Нег пате із 
^пеі. 

Чтобы в регулярном выражении что-то исключить из альтернатив, сле¬ 
дует сгруппировать альтернативы. Группировка выполняется с помо¬ 
щью круглых скобок. Они имеют наивысший приоритет среди всех опе¬ 
раторов регулярных выражений, как и в большинстве языков програм¬ 
мирования. В выражении <\Ь(Магу Мапе|Зие)\Ь> имеется три альтернативы, 
<Магу>, Шпе> и <3ие>, заключенные в метасимволы границ слова. Это ре¬ 
гулярное выражение не находит соответствий в тексте Не г пате із Эапеі:. 

Когда механизм регулярных выражений достигнет символа ^ в слове 
Эапеі: внутри испытуемого текста, первый метасимвол границы слова 
обнаружит совпадение. После этого механизм перейдет к группе. По¬ 
пытка сопоставления с первой альтернативой в группе, <Магу>, потерпит 
неудачу. Сопоставление со второй альтернативой, Оапе>, увенчается ус¬ 
пехом. Механизм покинет группу. Теперь непроверенным в выражении 
остается только метасимвол <\Ь>. Сопоставление границы слова с пози¬ 
цией между символами еиів конце испытуемого текста потерпит не¬ 
удачу. Поэтому и вся попытка найти соответствие, начиная с позиции 
символа также потерпит неудачу. 

Пара круглых скобок - это не просто группа, а сохраняющая группа. Для 
случая регулярного выражения Магу-Лпе-8ие сохранение не дает ника¬ 
ких преимуществ, потому что оно охватывает все регулярное выраже¬ 
ние. Возможность сохранения приобретает особое значение, когда оно ох¬ 
ватывает только часть регулярного выражения, например <\Ь ( \с!\сІ\сІ\с1 ) - 
(\сі\сі)-(\сі\с1)\Ь>. 

Регулярное выражение совпадает с датами в формате уууу-тт-(М. 
В точности то же самое делает регулярное выражение <\ Ь\сІ\сі\сі \сІ -\с! \сі - 
\с1\с1\Ь>. Поскольку в этом регулярном выражении отсутствуют операто¬ 
ры выбора или повторения, функция группировки оказывается невос¬ 
требованной, но вот функция сохранения оказывается полезной. 

В регулярном выражении <\Ь( \сі\с1\сі\сі ) - ( \сі\сі ) - ( \сі\сі )\Ь> имеется три со¬ 
храняющих группы. Группы нумеруются порядковыми номерами от¬ 
крывающих круглых скобок, присваиваемыми слева направо. Подвы¬ 
ражение <(\сі\сі\сі\с1)> - это группа с номером 1. Подвыражение <(\сІ\сІ)> - 
группа с номером 2. Второе подвыражение <(\сі\сі)> - группа с номером 3. 
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В процессе поиска совпадений, когда механизм регулярных выраже¬ 
ний покидает группу, достигнув закрывающей круглой скобки, он со¬ 
храняет текст, совпавший с сохраняющей группой. Когда регулярное 
выражение совпадает с текстом 2008-05-24 , фрагмент 2008 сохраняется 
в первом сохранении, фрагмент 05 - во втором сохранении и фрагмент 
24 - в третьем. 

Существует три способа использования сохраненного текста. В рецеп¬ 
те 2.10 описывается, как повторно проверить соответствие сохраненно¬ 
го текста тому же самому регулярному выражению. В рецепте 2.21 по¬ 
казано, как вставлять сохраненный текст в замещающий текст при вы¬ 
полнении операции поиска с заменой. В рецепте 3.9, в следующей гла¬ 
ве, описывается, как можно использовать в приложениях совпадения 
с частями регулярных выражений. 

Варианты 

Несохраняющие группы 

В регулярном выражении <\Ь(Магу^апе|Зие)\Ь> круглые скобки потребо¬ 
вались исключительно для нужд группировки. Поэтому вместо сохра¬ 
няющей группировки можно было бы использовать несохраняющую 
группировку: 

\Ь(? :Магу^апе|8ие)\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, Заѵавсгірі, РСКЕ, Регі, РуІЬоп, КиЪу 

Несохраняющая группа начинается с трех символов <(?:>. Закрываю¬ 
щая круглая скобка <)> закрывает ее. Несохраняющая группировка 
обеспечивает ту же самую возможность группировки, но без сохране¬ 
ния совпадений. 

При подсчете открывающих круглых скобок для выяснения порядко¬ 
вых номеров сохраняющих групп скобки, открывающие несохраняю¬ 
щие группы, не учитываются. Это главное преимущество несохраняю¬ 
щих групп: они могут добавляться в существующие регулярные выра¬ 
жения, не оказывая влияния на нумерованные ссылки, указывающие 
на сохраняющие группы. 

Еще одно преимущество несохраняющей группировки заключается 
в скорости работы. Если в выражении не предполагается использовать 
обратные ссылки на определенные группы (рецепт 2.10), вставлять со¬ 
храненные в них фрагменты в замещающий текст (рецепт 2.21) или из¬ 
влекать сохраненные фрагменты в программном коде (рецепт 3.9), со¬ 
храняющая группировка просто будет давать ненужную нагрузку, кото¬ 
рую можно ликвидировать, задействовав несохраняющую группиров¬ 
ку. На практике выигрыш в скорости работы регулярного выражения от 
такой замены трудно заметить, если регулярное выражение не исполь¬ 
зуется в глубоком цикле или не обрабатывает большой массив данных. 




2.9. Группы и сохранение части совпадения 
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Группы с модификаторами режима 

В рецепте 2.1 в описании варианта «Поиск без учета регистра симво¬ 
лов» говорилось, что диалекты .ЫЕТ, ^ѵа, РСКЕ, Регі и КиЪу поддер¬ 
живают локальные модификаторы режима, которые работают как про¬ 
стые переключатели: <зепзі1:іѵе(?і)сазе1езз(?-і)зепзі1;іѵе>. Хотя синтак¬ 
сис модификаторов включает круглые скобки, например <(?і)>, они не 
имеют никакого отношения к группировке. 

Вместо применения переключающих модификаторов можно использо¬ 
вать их внутри несохраняющих групп: 

\Ь(?і :Магу|Оапе|Зие)\Ь 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, РСКЕ, Регі, КиЬу 

5епзШѵе(?і :сазе1езз)зепзі1:іѵе 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, РСКЕ, Регі, КиЬу 

При добавлении модификатора режима в несохраняющую группу ре¬ 
жим, определяемый этим модификатором, распространяется только на 
часть регулярного выражения, заключенную в группу. По достижении 
закрывающей круглой скобки восстанавливаются предыдущие пара¬ 
метры режима. Так как по умолчанию поиск соответствий выполняет¬ 
ся с учетом регистра символов, только часть выражения внутри 

будет нечувствительна к регистру символов. 

Допускается объединять несколько модификаторов режима, напри¬ 
мер: <(?ізт :•••)>. Для отключения режима, определяемого модификато¬ 
ром, следует использовать символ дефиса: выражение <(?-ізт :••■)> отклю¬ 
чает все три режима. Выражение <(?і-зт)> включает режим нечувстви¬ 
тельности к регистру символов (і) и отключает режимы «точке соответ¬ 
ствуют границы строк» (з) и «символам Л и $ соответствуют границы 
строк» (т). Эти режимы подробно описаны в рецептах 2.4 и 2.5. 

См. также 

Рецепт 2.10, где объясняется, как заставить регулярное выражение сов¬ 
падать с тем же текстом, который совпал с сохраняющей группой. 

Рецепт 2.11, где рассказывается об именованных сохраняющих груп¬ 
пах. Возможность именования групп в регулярном выражении упро¬ 
щает чтение и сопровождение регулярного выражения. 

Рецепт 2.21, где описывается, как вставлять в замещающий текст фраг¬ 
менты, совпавшие с сохраняющими группами, при выполнении опера¬ 
ции поиска с заменой. 
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Рецепт 3.9, где объясняется, как в программном коде извлечь текст, 
совпавший с сохраняющей группой. 

Рецепт 2.15, где рассказывается, как предотвратить бессмысленные по¬ 
пытки механизма регулярных выражений отыскать различные вари¬ 
анты совпадения с группой. 

2.10. Повторный поиск соответствия 
с ранее совпавшим текстом 

Задача 

Создать регулярное выражение, совпадающее с «магическими» датами 
в формате уууу-тт-сісі. Магической считается дата, когда последние две 
цифры года, месяц и день являются одним и тем же числом. Например, 
магической считается дата 2008-08-08. Будем исходить из предположе¬ 
ния, что все даты, присутствующие в испытуемом тексте, корректны. Ре¬ 
гулярное выражение не должно исключать такие даты, как 9999-99-99, 
так как они вообще не будут появляться в испытуемом тексте. Требует¬ 
ся отыскать только магические даты. 

Решение 

\Ь\<1\0(\0\СІ)Л1-\1\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЪу 

Обсуждение 

Чтобы в регулярном выражении повторно проверить совпадение текста, 
уже совпавшего ранее, для начала необходимо сохранить предыдущее 
совпадение. Сделать это можно с помощью сохраняющей группы, как 
было показано в рецепте 2.9. После этого с помощью обратных ссылок 
можно проверить совпадение с этим текстом в любом месте регулярного 
выражения. Ссылки на первые девять сохраняющих групп оформляют¬ 
ся символом обратного слэша, за которым следует одиночная цифра от 
одного до девяти. Для групп от 10 до 99 используются формы записи от 
<\10> до <\99>. 


Не следует использовать форму записи <\01>. Она будет интерпрети¬ 
роваться как экранированная форма записи восьмеричного числа 
или как ошибка. Мы вообще не будем использовать экранирован¬ 
ные формы записи восьмеричных чисел в этой книге, потому что эк¬ 
ранированная форма записи шестнадцатеричных чисел <\хРР> более 
наглядна. 

Когда регулярное выражение <\Ь\с1\с1(\сІ\с1)-\1 -\1\Ь> встретит магическую 
дату, например 2008-08-08, первое подвыражение <\сІ\сі> совпадет с фраг- 
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ментом 20. Затем механизм регулярных выражений войдет в сохраняю¬ 
щую группу, запомнив текущую позицию в испытуемом тексте. 

Подвыражение <\сі\сі> внутри сохраняющей группы совпадет с фрагмен¬ 
том 08, и механизм обнаружит круглую скобку, закрывающую группу. 
В этой позиции совпавший фрагмент 08 будет сохранен в группе с номе¬ 
ром 1. 

Следующий элемент регулярного выражения - дефис, который совпа¬ 
дает с самим собой. Далее следует обратная ссылка. Механизм регуляр¬ 
ных выражений проверит содержимое первой сохраняющей группы: 
08. Затем попробует сопоставить этот текст буквально. Если регулярное 
выражение нечувствительно к регистру символов, сохраненный текст 
сопоставляется таким способом. В данном случае сопоставление с об¬ 
ратной ссылкой увенчается успехом. Следующий дефис и обратная 
ссылка также совпадут. Наконец, метасимвол границы слова совпадет 
с концом испытуемого текста и в качестве общего совпадения будет 
найдена дата 2008-08-08 . Сохраняющая группа по-прежнему будет хра¬ 
нить фрагмент 08. 

Если сохраняющая группа повторяется в результате применения кван¬ 
тификатора (рецепт 2.12) или возврата (рецепт 2.13), каждый раз но¬ 
вое совпадение с сохраняющей группой затирает предыдущее. Обрат¬ 
ная ссылка на группу совпадает только с текстом, сохраненным этой 
группой. 

Если то же самое выражение встретит текст 2008-05-24 2007-07-07, пер¬ 
вый раз сохраняющая группа выполнит сохранение, когда подвыраже¬ 
ние <\Ь\сІ\0(\сі\сі)> совпадет с фрагментом 2008 , и сохранит фрагмент 08 
для первой (и единственной) сохраняющей группы. Потом дефис совпа¬ 
дет сам с собой. Затем обратная ссылка попытается сопоставить сохра¬ 
ненный фрагмент <08> с фрагментом текста 05 и потерпит неудачу. 

Поскольку в выражении отсутствуют альтернативы, механизм закон¬ 
чит попытку сопоставления. На этом этапе будут очищены все сохра¬ 
няющие группы. Когда механизм предпримет вторую попытку сопо¬ 
ставления, начиная с первого символа 0 в испытуемом тексте, в группе 
<\1> вообще не будет ничего. 

В следующий раз сохраняющая группа выполнит сохранение, когда 
подвыражение <\Ь\сі\сі(\сі\сі)> совпадет с фрагментом 2007 , и сохранит 
фрагмент 07. Затем дефис совпадет сам с собой. Потом обратная ссылка 
попытается сопоставить <07>. На этот раз попытка увенчается успехом, 
как и последующие попытки сопоставления дефиса, обратной ссылки 
и границы слова. В результате будет найдено соответствие 2007-07-07 . 

Так как механизм регулярных выражений производит обработку слева 
направо, сохраняющие круглые скобки должны находиться перед об¬ 
ратной ссылкой. Регулярные выражения <\Ь\сі\сі\1-(\сі\сі)-\1> и <\Ь\сІ\сі\1- 
\1-(\сІ\сІ)\Ь> никогда не найдут соответствие. Поскольку обратная ссыл¬ 
ка располагается перед сохраняющей группой, в сохраняющей груп¬ 
пе еще ничего сохранено не было. Если вы не используете ЗаѵаЗсгірІ, 
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сопоставление обратной ссылки всегда будет приводить к неудаче, если 
она указывает на группу, которая еще не участвовала в сопоставлении. 

Группа, не участвовавшая в сопоставлении, - это не то же самое, что 
группа, сохранившая совпадение нулевой длины. Обращение к обратной 
ссылке на группу, сохранение в которой имеет нулевую длину, всегда 
оканчивается успехом. Когда выражение <(~)\1> сопоставляется с нача¬ 
лом строки, первая сохраняющая группа сохраняет совпадение с мета¬ 
символом <~>, имеющее нулевую длину; в результате попытка сопостав¬ 
ления с <\1> завершается успехом. На практике такое может случаться, 
когда содержимое сохраняющей группы является необязательным. 


^ѵаЗсгірІ; - единственный известный нам диалект, который посту¬ 
пает вопреки десятилетним традициям обратных ссылок в регуляр¬ 
ных выражениях. В диалекте ^ѵаЗсгірі или по крайней мере в реа¬ 
лизациях, следующих стандарту ^ѵа8сгірі, обратная ссылка на со¬ 
храняющую группу, не участвовавшую в сопоставлении, всегда 
оканчивается успехом, так же как и обратная ссылка на группу, со¬ 
хранение которой имеет нулевую длину. По этой причине выраже¬ 
ние <\Ь\сі\сі\1-\1-(\сі\сі)\Ь> в ^ѵаЗсгірі может совпасть с текстом 12--34 . 


Рецепт 2.9, где рассказывается о сохраняющих группах в совпадениях, 
к которым можно обращаться с помощью обратных ссылок. 

Рецепт 2.11, где описываются именованные сохраняющие группы и име¬ 
нованные обратные ссылки. Именованные группы и ссылки упрощают 
чтение и сопровождение регулярных выражений. 

Рецепт 2.21, где рассказывается, как вставлять в замещающий текст 
фрагменты, совпавшие с сохраняющими группами, при выполнении 
операции поиска с заменой. 

Рецепт 3.9, где объясняется, как в программном коде извлечь текст, 
совпавший с сохраняющей группой. 

Рецепты 5.8, 5.9и7.11, демонстрирующие решения некоторых практи¬ 
ческих задач с использованием обратных ссылок. 

2.11. Сохранение 

и именованные части совпадения 

Задача 

Создать регулярное выражение, которому соответствовали бы любые 
даты в формате уууу-тт-сЫ и которое сохраняет по отдельности год, ме¬ 
сяц и день. Цель состоит в том, чтобы облегчить работу с отдельными 
значениями в программном коде, обрабатывающем совпадение. Будем 
исходить из предположения, что все даты, присутствующие в испытуе- 



См. также 




2.11. Сохранение и именованные части совпадения 


99 


мом тексте, корректны. Содействуя достижению этой цели, необходимо 
присвоить сохраняемым фрагментам текста описательные имена «уеаг», 
«тоігЫі» и «<іау». 

Создать другое регулярное выражение, совпадающее с «магическими» 
датами в формате уууу-тт-сісі. Магической считается дата, когда по¬ 
следние две цифры года, месяц и день являются одним и тем же числом. 
Например, магической считается дата 2008-08-08. Необходимо сохра¬ 
нить магическое число (08 в примере) и пометить его именем «та&іс». 

Будем исходить из предположения, что все даты, присутствующие в ис¬ 
пытуемом тексте, корректны. Регулярное выражение не должно ис¬ 
ключать такие даты, как 9999-99-99, так как они вообще не будут появ¬ 
ляться в испытуемом тексте. 

Решение 

Именованное сохранение 

\Ь(?<уеаг>\сІ\сІ\сІ\сІ ) - (7<топ1:0>\с1\сІ ) - (7<сІау>\сІ\сІ )\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

\Ь(? ’уеаг ’\сІ\<Лсі\с1)-(? ’ топіііп ’ \с1\с!) - (?' сіау ‘ \сі\сі )\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, РСКЕ 7, Регі 5.10, КиЪу 1.9 

\Ь (? Р<уеа г>\сі\сі\с1\сі ) - (? Р<топ1:0>\сІ\с1 ) - ( ?Р<с1ау>\сІ\с1 ) \Ь 

Параметры: нет 

Диалекты: РСКЕ 4 и выше, Регі 5.10, РуІЬоп 

Именованные обратные ссылки 

\Ь\сІ\сІ (?<тадіс>\сІ\сІ ) -\к<тадіс>-\к<тадіс>\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

\Ь\с1\с1 (? ’ тадіс ’ \сі\сі ) -\к ’ тадіс ’ -\к ’ тадіс ’ \Ь 

Параметры: нет 

Диалекты: .ЫЕТ, РСКЕ 7, Регі 5.10, КиЬу 1.9 

\Ь\сі\сІ (? Р<тадіс>\сІ\с1 ) - (? Р=тадіс ) - (? Р=падіс )\Ь 

Параметры: нет 

Диалекты: РСКЕ 4 и выше, Регі 5.10, РуІЬоп 

Обсуждение 

Именованное сохранение 

В рецептах 2.9 и 2.10 были продемонстрированы сохраняющие группы 
и обратные ссылки . Если говорить точнее, в этих рецептах использова- 
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лись нумерованные сохраняющие группы и нумерованные обратные 
ссылки. Каждой группе автоматически присваивается свой номер, ко¬ 
торый затем используется в обратных ссылках. 

В дополнение к нумерованным группам современные диалекты регу¬ 
лярных выражений поддерживают именованные сохраняющие груп¬ 
пы. Единственное отличие между именованными и нумерованными 
группами заключается в возможности присваивать описательные име¬ 
на вместо того, чтобы иметь дело с автоматически присваиваемыми но¬ 
мерами. Именованные группы делают регулярные выражения более 
удобочитаемыми и простыми в сопровождении. Вставка новой сохра¬ 
няющей группы в существующее регулярное выражение может изме¬ 
нить номера всех сохраняющих групп. Имена же, присваиваемые ва¬ 
ми, остаются неизменными. 

РуІЬоп стал первым диалектом регулярных выражений, в котором по¬ 
явилась поддержка именованных сохранений. Синтаксис определения 
именованной сохраняющей группы выглядит так: <(?Р<пате>гедех)>. Имя 
должно состоять из символов слова, соответствующих метасимволу 
<\м>. Комбинация <(?Р<пате>> - это открывающая скобка группы, а <)> - 
закрывающая. 

Разработчики класса Редех в платформе .ЫЕТ выработали собственный 
синтаксис определения именованных сохранений, использовав два взаи¬ 
мозаменяемых варианта. Синтаксис <(?<пате>гедех)> имитирует синтак¬ 
сис диалекта РуіЬоп, в котором отсутствует символ Р. Имя должно состо¬ 
ять из символов слова, соответствующих метасимволу <\\л/>. Комбинация 
<(?<пате>> - это открывающая скобка группы, а <)> - закрывающая. 

Угловые скобки в имени сохранения здорово раздражают, когда необхо¬ 
димо записать выражение в документе ХМЬ, как это было при написа¬ 
нии данной книги в формате БосВоок ХМЬ. По этой причине в .ЫЕТ 
появился альтернативный синтаксис определения именованных сохра¬ 
нений: <(?’пате’гедех)>. Угловые скобки в нем были заменены апострофа¬ 
ми. Выбирайте, какой синтаксис будет для вас удобнее. Их функцио¬ 
нальность совершенно идентична. 

Вероятно благодаря более высокой популярности .ЫЕТ по сравнению 
с Руііюп разработчики других библиотек поддержки регулярных вы¬ 
ражений предпочитают воспроизводить синтаксис .ЫЕТ. Этот синтак¬ 
сис поддерживается в Регі 5.10 и механизмом Опі^игаша в КиЬу 1.9. 
Регі 5.10 и КиЬу 1.9 поддерживают оба синтаксиса - с угловыми скобка¬ 
ми и с апострофами, ^ѵа 7 также копирует синтаксис .ЫЕТ, но только 
вариант с угловыми скобками. Стандарт ^ѵаЗсгір! не поддерживает 
именованные сохранения. Библиотека ХКе&Ехр добавляет поддержку 
именованных сохранений с использованием синтаксиса .ЫЕТ, но она 
поддерживает только вариант с угловыми скобками. 

В библиотеке РСКЕ синтаксис диалекта РуІЬоп воспроизведен уже дав¬ 
но, когда диалект Регі вообще не поддерживал именованные сохране¬ 
ния. Версия РСКЕ 7, добавляющая новые особенности, появившиеся 
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в Регі 5.10, поддерживает как синтаксис диалекта ^ЕТ, так и синтаксис 
диалекта Руііюп. Возможно, из-за успеха библиотеки РСКЕ в смысле со¬ 
хранения обратной совместимости Регі 5.10 также поддерживает син¬ 
таксис диалекта Руііюп. В РСКЕ и Регі 5.10 функциональность синтак¬ 
сиса .ИЕТ и РуіЬоп именованных сохранений полностью идентична. 

Выбирайте тот синтаксис, который будет наиболее удобным для вас. 
Если вы используете язык РНР и стремитесь сохранить совместимость 
со старыми версиями РНР, включающими старые версии библиотеки 
РСКЕ, используйте синтаксис диалекта Руііюп. Если совместимость со 
старыми версиями не требуется и при этом вам приходится работать 
с платформой .1ЧЕТ или КиЬу, используйте синтаксис диалекта .ИЕТ, 
чтобы проще было переносить регулярные выражения между програм¬ 
мами на разных языках. В случае сомнений при работе с РНР/РСКЕ ис¬ 
пользуйте синтаксис диалекта РуІЬоп. Те, кому придется пересобирать 
ваши программы с поддержкой более старых версий РСКЕ, будут недо¬ 
вольны, если вдруг регулярные выражения в вашем программном коде 
окажутся неработоспособными. При копировании регулярного выра¬ 
жения в программу, где используется диалект .ЫЕТ или КиЪу, удалить 
несколько лишних символов Р будет совсем несложно. 

Документация к РСКЕ 7 и Регі 5.10 лишь вскользь упоминает синтак¬ 
сис диалекта РуіЬоп, но это не означает, что его не следует использо¬ 
вать. Более того, мы рекомендуем использовать его при работе с РСКЕ 
и РНР. 

Именованные обратные ссылки 

В паре с именованными сохранениями идут именованные обратные 
ссылки. Так же как функциональность именованных сохраняющих 
групп идентична функциональности нумерованных сохраняющих 
групп, функциональность именованных обратных ссылок идентична 
функциональности нумерованных обратных ссылок. Зато они более 
удобочитаемые и проще в сопровождении. 

В диалекте РуІЬоп для создания обратной ссылки на группу пате исполь¬ 
зуется синтаксис <(?Р=пате)>. Несмотря на то что здесь используются 
круглые скобки, это обратная ссылка, а не группа. В этом определении 
нельзя ничего помещать между именем и закрывающей круглой скоб¬ 
кой. Обратная ссылка <(?Р=пате)> - это особый элемент регулярного выра¬ 
жения, так же как и <\1>. Диалекты РСКЕ и Регі 5.10 также поддержива¬ 
ют синтаксис именованных обратных ссылок, используемый в диалекте 
РуіЬоп. 

В диалекте .ЫЕТ используются синтаксические конструкции <\к<пате>> 
и <\к'пате’>. Оба варианта совершенно идентичны по своей функцио¬ 
нальности и являются взаимозаменяемыми. Обратная ссылка, опреде¬ 
ленная с применением апострофов, может ссылаться на именованную 
группу, созданную с применением угловых скобок, и наоборот. Регі 5.10, 
РСКЕ 7 и КиЬу 1.9 также поддерживают синтаксис именованных об- 
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ратных ссылок, используемый в .ЫЕТ. ^ѵа 7 и ХКе&Ехр поддержива¬ 
ют только вариант с угловыми скобками. 

Мы настоятельно рекомендуем не смешивать именованные и нумеро¬ 
ванные группы в одном регулярном выражении. Различные диалекты 
следуют разным правилам нумерации неименованных групп, находя¬ 
щихся между именованными группами. В Регі 5.10, КиЪу 1.9, ^ѵа 7 
и ХКе&Ехр используется синтаксис диалекта .ЫЕТ, но они не следуют 
правилам нумерации, принятым в диалекте .ЫЕТ для именованных со¬ 
храняющих групп или в случае смешивания нумерованных и имено¬ 
ванных сохраняющих групп. Вместо того чтобы попытаться объяснить 
различия, мы просто рекомендуем не смешивать именованные и нуме¬ 
рованные группы. Избегайте путаницы и либо давайте имена всем не¬ 
именованным группам, либо делайте их несохраняющими. 

Группы с одинаковыми именами 

Регі 5.10, КиЪу 1.9 и .ЫЕТ допускают определение нескольких сохра¬ 
няющих групп с одинаковыми именами. Мы воспользуемся этой воз¬ 
можностью в решениях рецептов 4.5, 8.7 и 8.19. Когда в регулярном вы¬ 
ражении используется оператор выбора для поиска различных вариан¬ 
тов совпадений с определенным текстом, применение сохраняющих 
групп с одинаковыми именами упрощает извлечение совпавших фраг¬ 
ментов независимо от того, с какими альтернативами они совпали. 
В разделе «Проверка исключительно средствами регулярного выраже¬ 
ния» (рецепт 4.5) оператор выбора используется для сопоставления дат 
с учетом разной продолжительности разных месяцев. Каждая альтер¬ 
натива сопоставляется с днем месяца и номером месяца. Благодаря ис¬ 
пользованию групп с одинаковыми именами - «сіау» и «топііі» - во всех 
альтернативах, для извлечения дня и месяца нам достаточно обратить¬ 
ся лишь к двум сохраняющим группам. 

Все остальные диалекты, описываемые в этой книге и поддерживаю¬ 
щие именованные сохранения, интерпретируют одинаковые имена в не¬ 
скольких сохраняющих группах как ошибку. 


Несколько сохраняющих групп с одинаковыми именами можно ис¬ 
пользовать, только когда в сопоставлении участвует только одна из 
этих групп. Это правило соблюдается во всех рецептах в данной 
книге, где используются сохраняющие группы с одинаковыми име¬ 
нами. Группы определяются в отдельных альтернативах, а альтер¬ 
нативы не заключены в повторяемые группы. Регі 5.10, КиЪу 1.9 
и .ЫЕТ допускают возможность участия в сопоставлении двух групп 
с одинаковыми именами. Но в этом случае поведение обратных ссы¬ 
лок и выбор совпавшего фрагмента для сохранения несколько раз¬ 
личаются в разных диалектах. Описать различия достаточно слож¬ 
но, поэтому мы рекомендуем использовать группы с одинаковыми 
именами, только когда они находятся в отдельных альтернативах. 




2.12. Повторение части регулярного выражения определенное число раз 


103 


См. также 

Рецепт 2.9, рассказывающий о нумерованных сохраняющих группах, 
в котором приводится более фундаментальная информация о работе 
механизма группировки в регулярных выражениях. 

Рецепт 2.10, где объясняется, как заставить регулярное выражение сов¬ 
падать с тем же текстом, который совпал с сохраняющей именованной 
группой. 

Рецепт 2.11, где рассказывается об именованных сохраняющих груп¬ 
пах. Возможность именования групп в регулярном выражении упро¬ 
щает чтение и сопровождение регулярного выражения. 

Рецепт 2.21, где описывается, как вставлять в замещающий текст фраг¬ 
менты, совпавшие с сохраняющими группами, при выполнении опера¬ 
ции поиска с заменой. 

Рецепт 3.9, где объясняется, как в программном коде извлечь текст, 
совпавший с сохраняющей группой. 

Рецепт 2.15, где рассказывается, как предотвратить бессмысленные по¬ 
пытки механизма регулярных выражений отыскать различные вари¬ 
анты совпадения с группой. 

Во многих рецептах, что приводятся в последующих главах, именован¬ 
ные сохранения используются для упрощения извлечения совпадений. 
Некоторые из наиболее интересных решений демонстрируются в ре¬ 
цептах 4.5, 8.7 и 8.19. 

2.12. Повторение части регулярного 
выражения определенное число раз 

Задача 

Создать регулярное выражение, которое совпадает со следующими раз¬ 
новидностями чисел: 

• Гугол (десятичное число из единицы с сотней нулей после нее). 

• 32-битное шестнадцатеричное число. 

• 32-битное шестнадцатеричное число с необязательным суффиксом И. 

• Вещественное число с необязательной целой частью, обязательной 
дробной частью и необязательной экспонентой. В каждой части до¬ 
пускается любое число цифр. 

Решение 

Гугол 

\ЬѴН100}\Ь 

Параметры: нет 

Диалекты: .МЕТ, Лѵа, 4аѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 
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Шестнадцатеричное число 

\Ь[а-Г0-9]{1,8}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Заѵа, Заѵа8сгірІ, РСКЕ, Регі, РуНюп, КиЪу 

Шестнадцатеричное число с необязательным суффиксом 

\Ь[а-Г0-9]{1,8}П?\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, Руііюп, КиЬу 

Вещественное число 

\сІ*Ѵ \сІ+(е\сІ+)? 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, РуНюп, КиЬу 

Обсуждение 

Фиксированное число повторений 

Квантификатор <{я}>, где п - неотрицательное целое число, повторяет 
предшествующий ему элемент регулярного выражения п раз. Подвы¬ 
ражение <\сі{100}> в выражении <\Ь\сі{100}\Ь> совпадает со строкой из 
100 цифр. Тот же эффект можно получить, напечатав <\сІ> 100 раз. 

Квантификатор <{1}> повторит предшествующий элемент один раз, как 
если бы квантификатора не было вообще. Выражение <аЬ{1}с> идентич¬ 
но выражению <аЬс>. 

Квантификатор <{0}> повторит предшествующий элемент ноль раз, что 
фактически равносильно удалению его из регулярного выражения. Вы¬ 
ражение <аЬ{0}с> идентично выражению <ас>. 

Переменное число повторений 

Для организации повторений переменное число раз используется кван¬ 
тификатор <{п, /п}>, где п - неотрицательное целое число и т — число, боль¬ 
шее п. Выражению <\Ь[а-1 : 0-9]{1,8}\Ь> соответствует шестнадцатеричное 
число длиной от одной до восьми цифр. В случае переменного числа по¬ 
вторений становится существенным порядок следования альтернатив. 
Подробнее об этом рассказывается в рецепте 2.13. 

Если числа пит равны, выполняется фиксированное число повторе¬ 
ний. Регулярное выражение <\Ь\сІ{100,100}\Ь> эквивалентно выражению 

<\Ь\сі{100}\Ь>. 
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Бесконечное число повторений 

Квантификатор <{/?,}>, где п— неотрицательное целое число, позволяет 
выполнять бесконечное число повторений . По сути, бесконечное число 
повторений - это переменное число повторений, для которого не указан 
верхний предел. 

Выражение <\сі{1 , }> совпадает с одной или более цифрами; то же самое де¬ 
лает и выражение <\сі+>. Символ «плюс», следующий за элементом регу¬ 
лярного выражения, означает «один или более раз». В рецепте 2.13 опи¬ 
сывается значение символа «плюс», следующего за квантификатором. 

Выражение <\сі{0, }> совпадает с любым числом цифр, в том числе и с ну¬ 
левым; то же самое делает и выражение <\сі*>. Символ «звездочка» все¬ 
гда означает «ноль или более раз». Кроме того, что символ «звездочка» 
обеспечивает возможность бесконечного числа повторений, он еще де¬ 
лает предшествующий ему элемент необязательным. 


Необязательные элементы 


При использовании переменного числа повторений, когда число п равно 
нулю, элемент, предшествующий квантификатору, фактически делает¬ 
ся необязательным. Выражение <(п{0,1 }> совпадает с <И> ноль или один 
раз. Если в испытуемом тексте отсутствует символ Н, выражение <1і{0,1}> 
вернет совпадение нулевой длины. Если использовать выражение <Іі{0,1}> 
как самостоятельное, оно будет обнаруживать совпадение нулевой дли¬ 
ны перед каждым символом в испытуемом тексте, отличном от П. Для 
каждого символа Іі будет обнаруживаться соответствие длиной в один 
символ (сам символ Іі). 

Конструкция <П?> - это то же самое, что и <М{0,1}>. Знак вопроса, следую¬ 
щий за допустимым элементом регулярного выражения, не являющим¬ 
ся квантификатором, означает «ноль или один раз». В следующем ре¬ 
цепте описывается значение знака вопроса, следующего за квантифи¬ 
катором. 



Знак вопроса или любой другой квантификатор, следующий за от¬ 
крывающей круглой скобкой, вызывает синтаксическую ошибку. 
В Регі и диалектах, копирующих его, эта особенность используется 
для добавления «расширений Регі» в синтаксис регулярных выра¬ 
жений. В предыдущих рецептах демонстрируются такие особенно¬ 
сти, как несохраняющие группы и именованные сохраняющие 
группы, в синтаксисе которых используется знак вопроса, следую¬ 
щий за открывающей круглой скобкой. Эти знаки вопроса не явля¬ 
ются квантификаторами, они просто являются частью синтаксиса 
несохраняющих групп и именованных сохраняющих групп. В сле¬ 
дующих рецептах будут показаны дополнительные способы груп¬ 
пировки, где используется синтаксис <(?>. 
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Повторение групп 

Если поместить квантификатор после круглой скобки, закрывающей 
группу, повторению подвергнется вся группа. Выражение <(?:аЬс){3}> 
идентично выражению оЬсаЬсаЬо. 

Квантификаторы могут быть вложенными. Выражение <(е\сІ+)?> совпа¬ 
дет с символом е, за которым следует одна или более цифр, или обнару¬ 
жит совпадение нулевой длины. В регулярном выражении, совпадаю¬ 
щем с вещественным числом, этому подвыражению соответствует экс¬ 
поненциальная часть числа. 

Сохраняющие группы допускают возможность повторения. Как пояс¬ 
нялось в рецепте 2.9, совпадение с группой сохраняется всякий раз, ко¬ 
гда механизм выходит за пределы группы, перезаписывая текст, сов¬ 
павший с группой ранее. Выражению < (\сІ\с1) {1,3}> соответствует строка 
из двух, четырех или шести цифр. Механизм покидает группу трижды. 
Когда регулярное выражение совпадет со строкой 123456 , сохраняющая 
группа будет хранить фрагмент 56, потому что фрагмент 56 был сохра¬ 
нен на последней итерации группы. Другие два совпадения с группой, 
12 и 34, будут утрачены. 

Выражение <(\сІ\сІ){3}> сохранит тот же текст, что и выражение <\сІ\с1\с1\ 
с1(\сі\сі)>. Если необходимо, чтобы сохраняющая группа сохраняла все 
две, четыре или шесть цифр, а не только две последние, вместо того что¬ 
бы повторять сохраняющую группу, следует поместить квантификатор 
в эту группу: <((? :\сі\сі){1 ,3})>. Здесь была использована несохраняющая 
группа, чтобы иметь возможность вынести функцию группировки из 
сохраняющей группы. Точно так же можно было бы использовать со¬ 
храняющие группы: <((\сІ\с1){1,3})>. Когда данное выражение совпадет со 
строкой 123456 , в <\1> будет храниться фрагмент 123456 , а в <\2> - 56. 

Механизм регулярных выражений платформы .ЫЕТ является единст¬ 
венным, который позволяет извлекать все итерации повторяющейся со¬ 
храняющей группы. Если напрямую обратиться к свойству Ѵаіие груп¬ 
пы, которое возвращает строку, будет получено значение 56, как и в лю¬ 
бых других механизмах регулярных выражений. Обратные ссылки 
в регулярном выражении и в замещающем тексте также подставят 
фрагмент 56, но если воспользоваться свойством Сарііи геСоІІесІііоп груп¬ 
пы, можно получить доступ к стеку со значениями 56, 34 и 12. 

См. также 

Рецепт 2.9, где рассказывается, как группировать части регулярных 
выражений, чтобы их можно было повторять целиком. 

Рецепт 2.13, где объясняется, как выбирать между минимальным и мак¬ 
симальным числом повторений. 

Рецепт 2.14, где описывается, как уберечь механизм регулярных выра¬ 
жений от бесполезных попыток применить другое число повторений. 
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2.13. Выбор минимального 

или максимального числа повторений 

Задача 

Создать регулярное выражение, совпадающее с парой тегов <р> и </р> 
языка разметки ХНТМЬ и текстом между ними. Текст между этими те¬ 
гами может содержать другие теги ХНТМЬ. 

Решение 

<р>.*?</р> 

Параметры: точке соответствуют границы строк 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуЙюп, КиЪу 

Обсуждение 

Все квантификаторы, рассматривавшиеся в рецепте 2.12, являются мак¬ 
симальными , то есть они стремятся выполнить максимально возможное 
число повторений, возвращая часть соответствия, только если это необ¬ 
ходимо для обеспечения совпадения всего регулярного выражения. 

Это может осложнить поиск пары тегов языка разметки ХНТМЬ (кото¬ 
рый является разновидностью языка ХМЬ и потому требует, чтобы для 
каждого открывающего тега имелся соответствующий закрывающий 
тег). Рассмотрим следующий простой фрагмент текста на языке ХНТМЬ: 

<Р> 

ТРе ѵегу <ет>-ГігзІ</ет> Іазк із іо ТіпсІ ІІіе Ьедіппіпд оі а рагадгаріі. 

</р> 

<Р> 

ТОеп уои Наѵе Іо ТіпсІ ІРе епсі оТ ІІпе рагадгарМ 
</р> 

В этом фрагменте имеется два открывающих тега <р> и два закрываю¬ 
щих </р>. Необходимо обеспечить соответствие первого тега <р> первому 
тегу </р>, потому что они образуют единый абзац. Обратите внимание, 
что этот абзац содержит вложенный тег <ет>, поэтому регулярное выра¬ 
жение не может останавливаться, просто встретив первый символ <. 

Взгляните на неправильное решение задачи из этого рецепта: 

<р>.*</р> 

Параметры: точке соответствуют границы строк 

Диалекты: .МЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Единственное отличие этого неправильного решения заключается в от¬ 
сутствии дополнительного знака вопроса после звездочки. Неправиль¬ 
ное решение использует ту самую максимальную звездочку, что описы¬ 
валась в рецепте 2.12. 
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После того как будет найдено соответствие с тегом <р> в испытуемом 
тексте, механизм достигает конструкции <.*>. Точке соответствует лю¬ 
бой символ, включая символы перевода строки. Звездочка повторяет 
попытки найти соответствие с точкой ноль или более раз. Звездочка яв¬ 
ляется максимальным квантификатором, поэтому комбинация <.*> сов¬ 
падает со всем, что попадается на ее пути до самого конца испытуемого 
текста. Повторюсь еще раз: комбинация < *> «съест» весь файл ХНТМЬ, 
начиная от первого параграфа. 

Когда <. *> насытится полностью, механизм попытается найти соответст¬ 
вие <<> в конце испытуемого текста. Эта попытка окончится неудачей. Но 
это еще не конец: механизм регулярных выражений выполнит возврат . 

Звездочка предпочитает захватить столько текста, сколько это возмож¬ 
но, но ее вполне устроит и нулевое число совпадений. При каждом по¬ 
вторении квантификатора после превышения минимального числа по¬ 
вторений квантификатора регулярное выражение запоминает позицию 
для последующего возможного возврата. Механизм регулярных выра¬ 
жений может возвращаться к этим позициям, если часть регулярного 
выражения, следующая за квантификатором, не находит соответствия. 

Когда сопоставление <<> терпит неудачу, механизм возвращается назад, 
заставляя < *> вернуть один символ из своего совпадения. После этого 
снова предпринимается попытка найти соответствие <<> с последним сим¬ 
волом в файле. И снова неудача, и снова возврат на один символ и попыт¬ 
ка найти соответствие <<> с предпоследним символом в файле. Этот про¬ 
цесс продолжается, пока сопоставление <<> не увенчается успехом. Если 
для элемента выражения <<> так и не будет найдено соответствия даже 
после исчерпания всех возможных возвратов, то попытка найти соот¬ 
ветствие для всего регулярного выражения будет считаться неудачной. 

Если в ходе выполнения возвратов элемент <<> совпал в некоторой пози¬ 
ции, производится попытка найти соответствие элементу </>. В случае 
неудачи механизм опять начинает выполнять возвраты. Этот процесс 
повторяется, пока элемент <</р>> не совпадет полностью. 

Так в чем же собственно проблема? Так как звездочка является макси¬ 
мальным квантификатором, неправильному регулярному выражению 
будет соответствовать все содержимое файла ХНТМЬ, начиная от перво¬ 
го тега <р> и заканчивая последним тегом </р>. Но правильное решение 
состоит в том, чтобы отыскать абзац ХНТМЬ, то есть необходимо найти 
соответствие первого тега <р> с первым тегом </р>, следующим за ним. 

В таких случаях применяются минимальные квантификаторы. Любой 
квантификатор можно сделать минимальным, поместив за ним знак во¬ 
проса: <*?>, <+?>, <??> и <{7,42}?> - все это минимальные квантификаторы. 

Минимальные квантификаторы тоже позволяют выполнять возврат, 
но в другом режиме. Минимальный квантификатор совпадает мини¬ 
мально возможное число раз, сохраняет позицию возврата и позволяет 
механизму продолжить сопоставление остальной части регулярного 
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выражения. Если сопоставление с остатком регулярного выражения 
терпит неудачу и механизм выполняет возврат, минимальный кванти¬ 
фикатор повторяется еще раз. Если регулярное выражение продолжает 
выполнять возвраты, квантификатор продолжает сопоставление, пока 
не будет достигнуто максимально возможное число повторений или по¬ 
ка повторяемый элемент не потерпит неудачу. 

В выражении <<р>.*?</р>> используется минимальный квантифика¬ 
тор, чтобы обеспечить корректное обнаружение единственного абзаца 
ХНТМЬ. После того как будет найдено совпадение с <<р>>, минималь¬ 
ный квантификатор <.*?> просто запоминает позицию для возврата. Ес¬ 
ли подвыражение <</р>> обнаруживает совпадение сразу же вслед за <р>, 
результатом сопоставления будет пустой абзац. В противном случае ме¬ 
ханизм регулярных выражений возвращается к подвыражению < *?>, 
которому соответствует единственный символ. Если после этого сопо¬ 
ставление с <</р>> опять потерпит неудачу, будет выполнено сопоставле¬ 
ние <.*?> со следующим символом. Эти действия будут выполняться, по¬ 
ка не будет обнаружено совпадение с <</р>> или <.*?> потерпит неудачу. 
Поскольку точке соответствуют любые символы, неудачное сопоставле¬ 
ние с <. .*?> возможно только по достижении конца файла ХНТМЬ. 

Квантификаторы <*> и <*?> дают одинаковые совпадения регулярного 
выражения. Единственное различие между ними заключается в том, 
в каком порядке проверяются возможные совпадения. Максимальный 
квантификатор обнаружит максимально возможное соответствие. Ми¬ 
нимальный квантификатор обнаружит минимально возможное соот¬ 
ветствие. 

Если это возможно, лучшее решение заключается в том, чтобы обеспе¬ 
чить существование единственно возможного соответствия. Регуляр¬ 
ные выражения, совпадающие с числами, которые приводятся в рецеп¬ 
те 2.12, по-прежнему будут совпадать с теми же числами, если все 
имеющиеся в них квантификаторы заменить их минимальными вер¬ 
сиями. Причина состоит в том, что части этих регулярных выражений, 
где имеются квантификаторы, и части, следующие за ними, являются 
взаимоисключающими. Метасимвол <\сІ> совпадает с цифрой, а мета¬ 
символ <\Ь>, следующий за <\сі>, совпадает, только если следующий сим¬ 
вол не является цифрой (или буквой). 

Сравнение результатов работы выражений <\сі+\Ь> и <\сі+?\Ь> с различны¬ 
ми текстами может помочь понять принцип действия минимальных 
и максимальных квантификаторов. Максимальная и минимальная вер¬ 
сии воспроизводят одинаковые результаты, но испытуемый текст при 
этом просматривается по-разному. 

В случае использования выражения <\с1+\Ь> для сопоставления с тек¬ 
стом 1234 элемент <\сі+> совпадет со всеми цифрами. После этого будет об¬ 
наружено совпадение с метасимволом <\Ь>, и в результате будет найдено 
общее совпадение с выражением. В случае использования выражения 
<\сІ+?\Ь>, элемент <\сІ+?> сначала совпадет только с цифрой 1. Сопоставление 
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метасимвола <\Ь> с позицией между 1 и 2 потерпит неудачу. Затем соот¬ 
ветствие с <\сІ+?> будет расширено до 12, и снова сопоставление <\Ь> потер¬ 
пит неудачу. Так будет продолжаться, пока <\сИ-?> не совпадет с 1234 , по¬ 
сле чего успешно будет обнаружено совпадение с <\Ь>. 

Если в качестве испытуемого текста взять 1234Х, первое регулярное вы¬ 
ражение, <\сІ+\Ь>, по-прежнему будет совпадать с фрагментом 1234. Но 
сопоставление с <\Ь> потерпит неудачу. Подвыражение <\сі+> вернет одно 
совпадение, оставив 123. Сопоставление с <\Ь> снова потерпит неудачу. 
Подвыражение <\сІ+> будет возвращать совпадения, пока не останется 
его минимум, то есть 1, но и в этом случае сопоставление с <\Ь> будет тер¬ 
петь неудачу. В результате попытка найти совпадение для всего выра¬ 
жения будет считаться неудачной. 

При применении выражения <\сІ+?\Ь> к тексту 1234Х подвыражение <\сІ+?> 
сначала совпадет только с 1. Сопоставление метасимвола <\Ь> с позицией 
между 1 и 2 потерпит неудачу. Затем соответствие с <\с!+?> будет расши¬ 
рено до 12, и снова сопоставление <\Ь> потерпит неудачу. Так будет про¬ 
должаться, пока <\с1+?> не совпадет с 1234, но и после этого сопоставление 
с <\Ь> будет терпеть неудачу. Подвыражение <\сІ+?> попытается расши¬ 
рить соответствие, но сопоставление подвыражения <\сІ> с символом X 
потерпит неудачу. В результате попытка найти совпадение для всего 
выражения будет считаться неудачной. 

Когда между границами слова помещается подвыражение <\сі+>, оно 
должно будет либо совпасть со всеми цифрами в испытуемом тексте, ли¬ 
бо потерпеть неудачу. Использование минимальной версии квантифика¬ 
тора не изменит результирующего совпадения или неудачи. Фактически 
использование выражения <\Ь\сІ+\Ь> было бы более предпочтительно, ес¬ 
ли бы оно могло обнаруживать совпадение вообще без возвратов. В сле¬ 
дующем рецепте описывается, как для достижения этого эффекта мож¬ 
но использовать захватывающий квантификатор <\Ь\с1++\Ь>, по крайней 
мере в некоторых диалектах. 

См. также 

Рецепт 2.8, где описывается, как механизм регулярных выражений 
пытается применять альтернативы при использовании оператора выбо¬ 
ра. Это еще одна форма возвратов. 

Рецепт 2.12, где демонстрируются другие операторы выбора, поддержи¬ 
ваемые регулярными выражениями. 

Рецепт 2.9, где рассказывается, как группировать части регулярных 
выражений, чтобы их можно было повторять целиком. 

Рецепт 2.14, где описывается, как уберечь механизм регулярных выра¬ 
жений от бесполезных попыток применить другое число повторений. 

Рецепт 2.15, где рассказывается, как предотвратить бессмысленные по¬ 
пытки механизма регулярных выражений отыскать различные вари¬ 
анты совпадения с группой. 
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2.14. Устранение бесполезных возвратов 

Задача 

В предыдущем рецепте описывались различия между максимальными 
и минимальными квантификаторами и как они выполняют возврат. 
В некоторых ситуациях в возвратах нет никакой необходимости. 

В выражении <\Ь\сІ+\Ь> используется максимальный квантификатор, 
а в выражении <\Ь\сІ+?\Ь> - минимальный. Оба они совпадают с целым 
числом. В одном и том же тексте они обнаруживают одно и то же совпа¬ 
дение. Любые выполняемые ими возвраты не являются необходимыми. 
Нужно переписать это регулярное выражение и явно ликвидировать 
все возвраты, что обеспечить более высокую производительность. 

Решение 

\Ь\сІ++\Ь 

Параметры: нет 

Диалекты: Лѵа, РСКЕ, Регі 5.10, КиЬу 1.9 

Простейшее решение заключается в использовании захватывающего 
квантификатора. Но такие квантификаторы поддерживаются не всеми 
современными диалектами регулярных выражений. 

\Ь(?>\сі+)\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, КиЬу 

Атомарная группировка оказывает тот же эффект. Она имеет менее 
удобочитаемый синтаксис, но поддерживается более широким кругом 
диалектов, чем захватывающие квантификаторы. 

^ѵаЗсгір! и РуІЬоп не поддерживают ни захватывающие квантифика¬ 
торы, ни атомарную группировку. В этих двух диалектах нет никакой 
возможности ликвидировать бесполезные возвраты. 

Обсуждение 

Захватывающий квантификатор напоминает максимальный кванти¬ 
фикатор: он пытается отыскать максимально возможное число соответ¬ 
ствий. Различие состоит в том, что захватывающий квантификатор не 
возвращает совпадения, даже когда возврат является единственным 
способом, который мог бы обеспечить совпадение для остальной части 
выражения. Захватывающие квантификаторы не запоминают позиции 
совпадений для возврата. 

Любой квантификатор можно сделать захватывающим, поместив вслед 
за ним символ «плюс». Например, все следующие квантификаторы яв¬ 
ляются захватывающими: <*+>, <++>, <?+> и <{7,42}+>. 
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Захватывающие квантификаторы поддерживаются ^ѵа 4 и выше, с мо¬ 
мента включения пакета іаѵа.иііі. гедех. Все версии РСКЕ, рассматри¬ 
ваемые в этой книге (с 4 по 7), поддерживают захватывающие кванти¬ 
фикаторы. Диалект Регі поддерживает их, начиная с версии Регі 5.10. 
Классический механизм регулярных выражений КиЬу не поддержива¬ 
ет захватывающие квантификаторы, а механизм Опі^игата, по умол¬ 
чанию используемый в КиЪу 1.9, обеспечивает их поддержку. 

Обертывание максимального квантификатора атомарной группиров¬ 
кой дает тот же эффект, что и захватывающий квантификатор. Когда 
механизм регулярных выражений покидает атомарную группу, все по¬ 
зиции возврата, сохраненные квантификатором, и варианты выбора 
внутри группы отбрасываются. Атомарная группировка имеет синтак¬ 
сис: <(?>—)>, где <■■•> - любое регулярное выражение. Атомарная группа 
по своей сути является несохраняющей группой, которая дополнитель¬ 
но отвергает возвраты. Знак вопроса не является квантификатором; 
просто открывающая скобка состоит из трех символов <(?». 

В случае применения выражения <\Ь\сІ++\Ь> (с захватывающим кванти¬ 
фикатором) к тексту 123аЬс 456 метасимвол <\Ь> совпадет с началом ис¬ 
пытуемого текста, а подвыражение <\сі++> совпадет с фрагментом 123 . 
В этом оно не отличается от выражения <\Ь\сІ+\Ь> (с максимальным кван¬ 
тификатором). Но затем при сопоставлении с позицией между 3 и а вто¬ 
рой метасимвол <\Ь> потерпит неудачу. 

Захватывающий квантификатор не сохраняет позиции возвратов. По¬ 
скольку в этом выражении отсутствуют другие квантификаторы или 
варианты выбора, у механизма не остается возможности попробовать 
найти иные соответствия, когда сопоставление со второй границей сло¬ 
ва терпит неудачу. В результате механизм тут же объявляет о неудаче 
поиска соответствия в позиции символа 1. 

Механизм попытается сопоставить регулярное выражение, начиная со 
следующего символа в строке, и использование захватывающего кван¬ 
тификатора не повлияет на такое его поведение. Если необходимо обе¬ 
спечить совпадение регулярного выражения со всем испытуемым тек¬ 
стом, следует использовать якорные метасимволы, как обсуждалось 
в рецепте 2.5. В конечном счете механизм регулярных выражений дой¬ 
дет до попытки сопоставить выражение, начиная с позиции символа 4, 
и обнаружит соответствие 456 . 

Отличие выражения с максимальным квантификатором состоит в том, 
что в случае первой неудачной попытки сопоставить метасимвол <\Ь> 
максимальный квантификатор уступит одно свое соответствие. После 
этого механизм проверит (без всякой пользы) совпадение <\Ь> с позици¬ 
ей между символами 2 и 3, а затем между символами 1 и 2. 

Процесс поиска совпадения с применением атомарной группировки 
в сущности выполняется точно так же. При применении выражения 
<\Ь(?>\с1+)\Ь> (захватывающего) к тексту 123аЬс 456 граница слова совпа¬ 
дет с началом испытуемого текста. Механизм регулярных выражений 
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войдет в атомарную группу, и подвыражение <\сі+> совпадет с фрагмен¬ 
том ^123. Затем механизм выйдет из атомарной группы, и все позиции 
возврата, сохраненные подвыражением <\сІ+>, будут утрачены. Когда со¬ 
поставление со вторым метасимволом <\Ь> потерпит неудачу, у механиз¬ 
ма регулярных выражений не останется вариантов, как сразу же объ¬ 
явить о неудачной попытке. Как и при использовании захватывающего 
квантификатора, в конечном итоге это выражение обнаружит соответ¬ 
ствие 456 . 

Мы говорили, что захватывающий квантификатор не сохраняет пози¬ 
ции возврата, а атомарная группировка отбрасывает их. Это позволяет 
лучше понять процесс сопоставления, но не стоит заострять свое вни¬ 
мание на различиях, так как в некоторых диалектах их вообще может 
не быть. Во многих диалектах <х++> - это всего лишь сокращенная фор¬ 
ма записи <(?>х+)>, и оба выражения работают совершенно одинаково. 
Для конечного результата совершенно неважно, сразу ли механизм не 
запоминает позиции возврата или отбрасывает их позднее. 

Основные же различия между захватывающими квантификаторами 
и атомарной группировкой заключаются в том, что захватывающий 
квантификатор применяется к единственному элементу регулярного 
выражения, тогда как атомарная группа может заключать в себя целое 
регулярное выражение. 

Выражения <\\л/++\сі++> и < (?>\\л/+\с1+)> - это не одно и то же. Выражение 
<\м++\с!++>, эквивалентом которого является выражение <(?>\\д/+)(?>\с1+)>, 
не совпадет с текстом аЬс123. Подвыражение <\\л/++> совпадет со всем тек¬ 
стом аЬс123, но затем механизм регулярных выражений попытается 
найти в конце испытуемого текста соответствие для <\сі++>. Поскольку 
в тексте не останется символов, которые могли бы соответствовать, под¬ 
выражение <\с1++> потерпит неудачу. В отсутствие позиций возврата по¬ 
пытка сопоставить регулярное выражение провалится. 

В выражении <(?>\м+\сІ+)> используются два максимальных квантифи¬ 
катора, заключенные в такую же атомарную группу. Внутри этой груп¬ 
пы возвраты выполняются как обычно. Позиции возвратов отбрасыва¬ 
ются только после того, как механизм регулярных выражений покинет 
группу. При применении этого выражения к тексту аЬс123 подвыраже¬ 
ние <\\л/+> совпадет с фрагментом аЬс123. Максимальные квантификато¬ 
ры запоминают позиции возвратов. Когда сопоставление с <\сІ+> потер¬ 
пит неудачу, подвыражение <\\л/+> уступит один символ. В результате для 
<\с!+> будет найдено соответствие 3. После этого механизм регулярных 
выражений покинет группу и отбросит все позиции возврата, сохранен¬ 
ные подвыражениями <\м+> и <\сІ+>. Поскольку был достигнут конец ре¬ 
гулярного выражения, различия становятся несущественными. Общее 
совпадение с регулярным выражением обнаружено. 

Если бы конец регулярного выражения не был достигнут, как, напри¬ 
мер, при использовании выражения <(?>\м+\сі+)\сі+>, механизм регуляр¬ 
ных выражений оказался бы в той же ситуации, что и в случае с выра- 
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жением <\м++\сІ++>. Для второго подвыражения <\сІ+> не остается симво¬ 
лов для сопоставления в конце испытуемого текста. А так как позиции 
возврата уже были отброшены, механизму регулярных выражений 
остается только объявить о неудаче. 

Захватывающие квантификаторы и атомарная группировка не только 
оптимизируют регулярные выражения. Они могут оказывать влияние 
на соответствия, обнаруживаемые регулярным выражением, устраняя 
результаты, которые могли бы быть получены за счет возвратов. 

Этот рецепт продемонстрировал, что применение захватывающих кван¬ 
тификаторов и атомарной группировки позволяет выполнить минималь¬ 
ную оптимизацию, которая может даже не повлиять на результаты тес¬ 
тов на скорость выполнения. В следующем рецепте будет показано, что 
атомарная группировка может оказывать весьма существенное влияние. 

См. также 

Рецепт 2.12, где демонстрируются другие операторы выбора, поддержи¬ 
ваемые регулярными выражениями. 

Рецепт 2.15, где рассказывается, как предотвратить бессмысленные по¬ 
пытки механизма регулярных выражений отыскать различные вари¬ 
анты совпадения с группой. 

2.15. Предотвращение бесконтрольных 
повторений 

Задача 

Создать единственное регулярное выражение, совпадающее с целым 
файлом НТМЬ, которое будет проверять наличие тегов ІтЕтІ, ііеасі, Ііііііе 
и Ьосіу и их вложенность. Выражение не должно совпадать с файлами 
НТМЬ, в которых отсутствуют требуемые теги. 

Решение 

<Шт1>(?>. *?<НеасІ>)(?>. *?<Ш1е>)(?>. *?<ДШе>)и 
(?>. *?</йеай>)(?>. *?<ЬосІу[ ~>]*>)(?>. *?</ЬосІу>). *?</Шт1> 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, КиЪу 

Диалекты ^ѵабсгірі и РуІЬоп не поддерживают атомарную группи¬ 
ровку. В них нет никакой возможности устранить бесполезные возвра¬ 
ты. При программировании на ^ѵабсгірі или РуЙюп эту проблему 
можно решить за счет поиска литералов тегов по одному, выполняя по¬ 
иск следующего тега по остатку испытуемого текста, после того как бу¬ 
дет найден предыдущий. 




2.15. Предотвращение бесконтрольных повторений 


115 


Обсуждение 

Правильное решение этой задачи будет проще понять, если начать с бо¬ 
лее простого решения: 

<ІтІ:т1>. *?<ПеасІ>. *?<і:іі:1е>. *?</1:і1:1е>и 
. *?</ІпеасІ> . *?<ЬосІу [~>]*>. *?</ЬосІу>. *?</Шт1> 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаВсгірІ, РСКЕ, Регі, РуПюп, КиЬу 

Если проверить работу этого выражения, применив его к корректному 
файлу НТМЬ, оно прекрасно справится со своей задачей. Подвыраже¬ 
ние <.*?> пропустит все, поэтому включен параметр «точке соответству¬ 
ют границы строк». Минимальная звездочка гарантирует, что регуляр¬ 
ное выражение будет продвигаться вперед по одному символу за раз, 
каждый раз проверяя совпадение со следующим тегом. Все это объяс¬ 
няется в рецептах 2.4 и 2.13. 

Однако проблемы возникнут, если применить это выражение к испы¬ 
туемому тексту, в котором отсутствуют какие-либо теги НТМЬ. Самый 
худший случай - отсутствие тега </(тІ:т1>. 

Предположим, что механизм регулярных выражений обнаружил соот¬ 
ветствия со всеми предыдущими тегами и теперь занят разворачивани¬ 
ем последнего подвыражения <.*?>. Поскольку подвыражение <</ІтЕт1>> 
никогда не обнаружит соответствие, совпадение с <. *?> будет расширять¬ 
ся вплоть до конца файла. Когда это произойдет, попытка найти совпа¬ 
дение со всем регулярным выражением будет признана неудачной. 

Но это еще не конец. Другие шесть подвыражений <.*?> имеют сохранен¬ 
ные позиции возврата, которые позволяют расширять их соответствия. 
Когда последнее подвыражение <. *?> потерпит неудачу, расширяться нач¬ 
нет предшествующее ему, постепенно захватывая совпадение </Ьос1у> . 
Тот самый текст, который ранее уже был определен как совпадение 
с литералом <</ЬосІу» в регулярном выражении. Это подвыражение <.*?> 
тоже будет расширено до самого конца файла, как и все предыдущие 
точки с минимальным квантификатором. Только когда первое подвы¬ 
ражение <.*?> достигнет конца файла, механизм регулярных выраже¬ 
ний объявит о неудаче. 

Это регулярное выражение имеет сложность 1 0(тг 7 ) для самого тяжелого 
случая, то есть длина испытуемого текста в седьмой степени. В выраже¬ 
нии имеется семь точек с минимальным квантификатором, потенци- 


1 Сложность компьютерных алгоритмов обычно описывается с применением 
«нотации большого О». Отличный обзор способов оценки сложности компью¬ 
терных алгоритмов можно найти в статье Нир://еп.юікіре(ііа.ог§/іѵікі/Тіте_ 
сотріехііу . (В русскоязычной Википедии нет подобной статьи, однако для 
общего знакомства можно порекомендовать статью Ыір://каЪгакаЪг.ги/ 
розі/104219/. - Прим, перев.) 
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ально способных пройти попытки сопоставления до конца файла. Если 
размер файла увеличится в два раза, регулярному выражению может 
понадобиться до 128 раз больше шагов, чтобы обнаружить отсутствие 
совпадения. 

Мы называем это катастрофическими возвратами . Такое большое чис¬ 
ло возвратов может привести к тому, что регулярное выражение навечно 
«застрянет» в процедуре поиска или вызовет аварийное завершение 
приложения. Некоторые реализации регулярных выражений способны 
прервать неконтролируемую последовательность повторений раньше, 
но даже в этом случае регулярное выражение будет способно до миниму¬ 
ма снизить производительность приложения. 



Катастрофические возвраты - это пример класса явлений, известно¬ 
го как комбинаторный взрыв , когда пересекаются несколько незави¬ 
симых условий и необходимо проверить все возможные комбинации. 
Можно даже сказать, что в этом случае регулярное выражение - это 
декартово произведение различных операторов повторения. 


Решение этой проблемы заключается в использовании атомарной груп¬ 
пировки, предотвращающей бесполезные возвраты. Нет никакого смыс¬ 
ла расширять соответствие для шестого подвыражения <.*?>, после того 
как будет найдено совпадение для <</ЬосІу>>. Если попытка найти совпа¬ 
дение с <</ІтІ:т1>> не увенчалась успехом, расширение соответствия для 
шестой точки с минимальным квантификатором не приведет к появле¬ 
нию закрывающего тега ІтЬтІ. 

Чтобы остановить расширение соответствия для квантифицированного 
элемента регулярного выражения, когда было найдено совпадение со сле¬ 
дующим за ним разделителем, необходимо квантифицированную часть 
выражения и разделитель поместить в атомарную группу: <(?>. *?</Ьос1у>)>. 
Теперь механизм регулярных выражений будет отбрасывать все пози¬ 
ции, совпавшие с <. *?</ЬосІу>>, после того как будет найдено соответствие 
для <</Ьосіу>>. Если позднее сопоставление с <</ІтІ:т1>> потерпит неудачу, 
механизм регулярных выражений забудет о существовании <. *?</Ьосіу» 
и дальнейшее расширение соответствия происходить не будет. 

Если точно так же оформить все остальные подвыражения <.*?>, ни одно 
из них не будет расширять свое соответствие. Хотя в выражении по- 
прежнему останутся все семь точек с минимальными квантификатора¬ 
ми, их совпадения никогда больше не будут перекрываться. Это снизит 
сложность регулярного выражения до О(ті), которая имеет линейную 
зависимость от длины испытуемого текста. Никакое регулярное выра¬ 
жение не может быть более эффективным, чем это. 


Варианты 

При желании катастрофическое действие возвратов можно наблюдать, 
применив регулярное выражение <(х+х+)+у> к тексту хххххххххх. Если 
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оно потерпит неудачу слишком быстро, добавьте в испытуемый текст 
еще один символ х. Повторяйте добавлять символы, пока регулярное 
выражение не будет выполняться слишком долго или пока приложение 
не завершится аварийно. Для этого не потребуется добавлять слишком 
много символов х, если не использовать Регі для тестирования. 

Из всех диалектов регулярных выражений, обсуждаемых в этой книге, 
только Регі способен определить, что выражение слишком сложное, 
и прервать попытки поиска соответствий без аварийного завершения 
приложения. 

Это регулярное выражение имеет сложность 0(2 Л ). Когда попытка най¬ 
ти соответствие для <у> потерпит неудачу, механизм регулярных выра¬ 
жений опробует все возможные перестановки повторений для каждого 
элемента <х+> и группы, содержащей их. Например, одна такая переста¬ 
новка, возникающая в процессе сопоставления, - это когда первому 
подвыражению <х+> соответствует фрагмент ххх, второму подвыраже¬ 
нию <х+> - символ х, и группа повторяется три или более раз для каждо¬ 
го совпадения <х+> с х. Для текста с десятью символами х будет выполне¬ 
но 1024 перестановки. Если увеличить число символов в испытуемом 
тексте до 32, будет получено более 4 миллиардов возможных перестано¬ 
вок, что наверняка приведет к исчерпанию доступной памяти механиз¬ 
мом регулярных выражений, если в нем отсутствует «аварийная кноп¬ 
ка», которая позволит ему сдаться и заявить, что регулярное выраже¬ 
ние слишком сложное. 

В данном случае бессмысленное регулярное выражение легко можно 
записать как <хх+у>, которое будет отыскивать те же совпадения, но за¬ 
висимость сложности от длины текста будет уже линейной. На практи¬ 
ке в случае более сложных регулярных выражений правильные реше¬ 
ния могут быть не такими очевидными. 

Суть состоит в том, чтобы научиться видеть ситуации, когда две или 
более частей регулярного выражения могут совпасть с одним и тем же 
текстом. В таких ситуациях может потребоваться применить атомар¬ 
ную группировку, чтобы исключить для механизма регулярных выра¬ 
жений возможность попытаться разделить испытуемый текст между 
этими частями выражения всеми возможными способами. Регулярные 
выражения всегда следует проверять на (длинных) испытуемых тек¬ 
стах, содержащих фрагменты, частично, но не полностью соответст¬ 
вующие регулярному выражению. 

См. также 

Рецепт 2.13, где объясняется, как выбирать между минимальным и мак¬ 
симальным числом повторений. 

Рецепт 2.14, где описывается, как уберечь механизм регулярных выра¬ 
жений от бесполезных попыток применить другое число повторений. 
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Раздел «Графема в Юникоде» (рецепт 2.7), где приводится другой при¬ 
мер применения атомарной группировки для предотвращения нежела¬ 
тельных совпадений. 

Раздел «8БЬ Ке^ех Еиггег» (глава 1), где описывается приложение 8БЬ 
Ке^ех Гиггег, способное проверять (некоторые) регулярные выражения 
на подверженность проблеме катастрофических возвратов. 

2.16. Проверка соответствия без включения 
его в общее соответствие 

Задача 

Отыскать любое слово, расположенное между парой тегов <Ь> и </Ь> 
НТМЬ, без включения этих тегов в общее соответствие регулярному 
выражению. Например, для испытуемого текста Му <Ь>са1:</Ь> із Гиггу 
правильным соответствием будет саі . 

Решение 

(?<=<Ь>)\м+(?=</Ь>) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РОКЕ, Регі, РуНюп, КиЪу 1.9 

Диалекты ^ѵаЗсгір! и ЕиЬу 1.8 поддерживают опережающую провер¬ 
ку <(?=</Ь>)>, но не поддерживают ретроспективную <(?<=</Ь>)>. 

Обсуждение 

Проверка соседних символов 

Четыре вида групп, выполняющих проверку соседних символов и под¬ 
держиваемых современными диалектами регулярных выражений, име¬ 
ют специальный механизм отказа от текста, совпавшего с частью регу¬ 
лярного выражения внутри таких групп. По сути, проверка соседних 
символов позволяет выяснить, совпадает ли близлежащий текст, не по¬ 
мещая его в совпадение. 

Проверка предыдущих символов называется ретроспективной . Это 
единственная конструкция в регулярных выражениях, которая про¬ 
сматривает текст справа налево, а не слева направо. Положительная 
ретроспективная проверка имеет синтаксис <(?<=•■■)>. Четыре символа 
<(?<=> образуют открывающую скобку. Что допускается включать в со¬ 
держимое ретроспективной проверки, показанное здесь как <•■•>, зави¬ 
сит от используемого диалекта регулярных выражений. Но как бы то 
ни было, простые строковые литералы, такие как <(?<=<Ь>)>, можно ис¬ 
пользовать в любом диалекте. 

Ретроспективная проверка исследует, совпадает ли текст, указанный 
в ней, с текстом, расположенным непосредственно перед позицией, где 




2.16. Проверка соответствия без включения его в общее соответствие 


119 


механизм регулярных выражении встретил ретроспективную провер¬ 
ку. Применительно к тексту Му <Ь>саі</Ь> із 'Гиггу ретроспективная про¬ 
верка < (?<=<Ь>)> будет терпеть неудачу, пока не будет выполнена попытка 
сопоставления в позиции символа с. Тогда механизм регулярных выра¬ 
жений войдет в группу ретроспективной проверки, предложив ей про¬ 
верить текст слева. Элемент <<Ь>> совпадет с текстом левее символа с. 
Механизм покинет ретроспективную проверку в этой позиции и исклю¬ 
чит текст, совпавший с ретроспективной проверкой, из общего совпаде¬ 
ния. Говоря другими словами, общее соответствие возвращается к со¬ 
стоянию, которое было на момент, когда механизм вошел в ретроспек¬ 
тивную проверку. В данном случае перед попыткой сопоставления 
с символом с в испытуемой строке текущее совпадение имело нулевую 
длину. Ретроспективная проверка лишь проверяет наличие соответст¬ 
вия с <<Ь>>. При этом текст, совпавший с ней, в общее совпадение не 
включается. По этой причине проверки соседних символов называют 
еще проверками с нулевой длиной совпадения . 

После совпадения с ретроспективной проверкой предпринимается по¬ 
пытка сопоставить символьный класс <\м+> с одним или более символа¬ 
ми. Он совпадет со словом саі. Подвыражение <\м+> не находится внутри 
какой-либо проверки соседних символов или группы, поэтому оно сов¬ 
падет с текстом саі обычным способом. Мы говорим, что <\м+> совпадает 
и поглощает текст саі, тогда как проверка соседних символов может 
совпадать, но никогда ничего не поглощает. 

Проверка может также выполняться в прямом направлении, в каком 
регулярное выражение просматривает текст. Такая проверка называет¬ 
ся опережающей . Опережающая проверка в равной степени поддержи¬ 
вается всеми диалектами регулярных выражений, рассматриваемыми 
в этой книге. Положительная опережающая проверка имеет синтаксис 
<(?=—)>. Первые три символа <(?=> образуют открывающую скобку груп¬ 
пы. Все, что допускается использовать в регулярных выражениях, 
можно использовать внутри опережающей проверки вместо < ■>. 

Когда подвыражение <\м+> в выражении <(?<=<Ь>)\\а/+(?=</Ь>)> совпадет 
с фрагментом саі в тексте Му <Ь>саі</Ь> із іи г г у, механизм регулярных 
выражений войдет в опережающую проверку. Единственная особен¬ 
ность поведения опережающей проверки в этой точке заключается в том, 
что механизм регулярных выражений запоминает, какая часть текста 
уже совпала, связывая ее с опережающей проверкой. Совпадение с <</Ь>> 
будет обнаружено как обычно, и механизм регулярных выражений по¬ 
кинет опережающую проверку. Регулярное выражение внутри опере¬ 
жающей проверки обнаружило совпадение, поэтому и сама опережаю¬ 
щая проверка считается совпавшей. Механизм регулярных выражений 
отбросит текст, совпавший с опережающей проверкой, и восстановит со¬ 
ответствие в состояние, существовавшее на момент входа в опережаю¬ 
щую проверку. Общее текущее совпадение будет содержать текст саі. По¬ 
скольку на этом регулярное выражение заканчивается, в качестве окон¬ 
чательного результата поиска соответствия принимается текст саі. 
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Отрицательная проверка 

Форма записи <(?! •)> с восклицательным знаком вместо знака равенст¬ 
ва - это отрицательная опережающая проверка . Отрицательная опере¬ 
жающая проверка работает точно так же, как и положительная, за ис¬ 
ключением того, что положительная опережающая проверка совпада¬ 
ет, когда совпадает регулярное выражение, находящееся внутри нее, 
а отрицательная опережающая проверка совпадает, когда регулярное 
выражение внутри нее терпит неудачу. 

Процесс сопоставления протекает точно так же. Механизм сохраняет 
текущее найденное совпадение при входе в отрицательную опережаю¬ 
щую проверку и пытается сопоставить регулярное выражение внутри 
нее обычным способом. Если подвыражение совпадает, опережающая 
проверка терпит неудачу и механизм регулярных выражений выполня¬ 
ет возврат. Если совпадение с подвыражением обнаружено не будет, ме¬ 
ханизм восстанавливает прежнее соответствие и продолжает сопостав¬ 
ление оставшейся части регулярного выражения. 

Точно так же форма записи <(?<! •)> является отрицательной ретро¬ 
спективной проверкой. Отрицательная ретроспективная проверка сов¬ 
падает, когда ни одна из альтернатив внутри ретроспективной провер¬ 
ки не обнаруживает совпадение с текстом, предшествующим позиции 
в испытуемом тексте, которая была достигнута механизмом регуляр¬ 
ных выражений. 

Различные уровни ретроспективной проверки 

Опережающая проверка выполняется довольно просто. Все диалекты 
регулярных выражений, рассматриваемые в этой книге, позволяют по¬ 
мещать в нее полноценные регулярные выражения. Все конструкции, 
какие только можно использовать в регулярном выражении, можно ис¬ 
пользовать и в опережающей проверке. Внутрь опережающей проверки 
можно даже вкладывать другие опережающие и ретроспективные про¬ 
верки. От таких нагромождений голова может пойти кругом, но меха¬ 
низм регулярных выражений справится с этим без труда. 

Ретроспективная проверка - это совсем другая история. Программное 
обеспечение поддержки регулярных выражений всегда предназнача¬ 
лось для поиска по тексту только в направлении слева направо. Ретро¬ 
спективный поиск часто реализуется довольно грубо: механизм регуляр¬ 
ных выражений определяет количество символов, помещенных внутрь 
ретроспективной проверки, переходит назад на указанное число симво¬ 
лов и затем сравнивает текст в ретроспективной проверке с испытуемым 
текстом слева направо. 

По этой причине первые реализации допускали вставлять внутрь рет¬ 
роспективной проверки только текст фиксированной длины. Диалекты 
Регі и РуІЬоп все еще требуют от ретроспективной проверки, чтобы она 
имела фиксированную длину, но допускают включение элементов фик- 
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сированной длины, таких как символьные классы и операторы выбора, 
при условии, что в последних все альтернативы будут содержать одина¬ 
ковое количество символов. 

Разработчики РСКЕ и КиЪу 1.9 пошли на один шаг вперед, позволив ис¬ 
пользовать внутри ретроспективных проверок операторы выбора с аль¬ 
тернативами разной длины при условии, что каждая альтернатива име¬ 
ет фиксированную длину. Они способны обрабатывать регулярные вы¬ 
ражения, такие как < (?<=опе 11:\л/о11:1лгее| "Гог1:у-1:\л/о|дг[ае]у)>, но не сложнее. 

Внутренние реализации диалектов РСКЕ и КиЪу 1.9 разложат это вы¬ 
ражение на шесть ретроспективных проверок. Сначала они вернутся 
назад на три символа, чтобы проверить варианты <опе|1:ѵ\/о>, затем на че¬ 
тыре символа, чтобы проверить варианты <дгау |дгеу>, затем на пять сим¬ 
волов, чтобы проверить <11иее>, и наконец, на девять символов, чтобы 
проверить <‘Гог1:у-1:\л/о>. 

Разработчики диалекта Лѵа пошли еще на один шаг вперед. В этом 
диалекте допускается использовать внутри ретроспективных проверок 
любые регулярные выражения, имеющие конечную длину совпадения. 
Это означает, что внутри ретроспективной проверки можно использо¬ 
вать все, за исключением бесконечных квантификаторов <*>, <+> и <{42, }>. 
Внутренняя реализация диалекта Лѵа вычисляет минимальную и мак¬ 
симальную длину текста, который возможно будет соответствовать ре¬ 
гулярному выражению внутри ретроспективной проверки. Затем она 
возвращается на минимальное число символов и применяет регулярное 
выражение из ретроспективной проверки в направлении слева направо. 
Если совпадение не будет обнаружено, она возвращается еще на один 
символ назад и повторяет попытку, пока либо ретроспективная провер¬ 
ка не совпадет, либо не будет выполнена попытка сопоставить макси¬ 
мальное число символов. 

Если все это на ваш взгляд выглядит неэффективным, пусть так. Ретро¬ 
спективная проверка удобна в использовании, но с ее применением не¬ 
возможно поставить рекорд в скорости выполнения. Ниже мы предста¬ 
вим решение для диалектов ЛѵаВсгірІ и КиЪу 1.8, которые вообще не 
поддерживают ретроспективные проверки. В действительности же это 
решение намного более эффективно, чем решение на основе примене¬ 
ния ретроспективной проверки. 

Механизм регулярных выражений платформы .ЫЕТ является единст¬ 
венным в мире 1 , который фактически способен обрабатывать полноцен¬ 
ные регулярные выражения внутри ретроспективной проверки - в дей¬ 
ствительности, он применяет такие регулярные выражения в направ- 


1 Механизм регулярных выражений, реализованный в программе Ке&ех- 
Вибсіу, также позволяет помещать полноценные регулярные выражения 
внутрь ретроспективной проверки, но в нем (пока) отсутствует особенность, 
которая напоминала бы свойство ВедехОрііопз. РНдЩТоЬеП:, имеющееся в реа¬ 
лизации платформы .ЫЕТ, используемое для переворачивания всего регу¬ 
лярного выражения. 
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лении справа налево. И само регулярное выражение в ретроспективной 
проверке, и испытуемый текст просматриваются справа налево. 

Двойная проверка на совпадение 
с одним и тем же текстом 

При использовании ретроспективной проверки в начале регулярного 
выражения или опережающей проверки в конце возникает ситуация, 
когда необходимо, чтобы что-то находилось перед или после совпаде¬ 
ния с регулярным выражением без включения этого «что-то» в общее 
совпадение. Если проверка соседних символов выполняется в середине 
регулярного выражения, можно применять несколько проверок на сов¬ 
падение с одним и тем же текстом. 

В рецепте 2.3 в разделе «Особенности, характерные для разных диалек¬ 
тов» было показано, как использовать разность символьных классов 
для поиска цифр алфавита ТЬаі. Операцию вычитания символьных 
классов поддерживают только .ЫЕТ и ^ѵа. 

Символ является тайской цифрой, если он является символом (любым) 
алфавита ТЬаі и цифрой (любого алфавита). С помощью опережающей 
проверки можно проверить соответствие обоим требованиям для одно¬ 
го и того же символа: 

(?=\р {ТГіаі } )\р {N} 

Параметры: нет 

Диалекты: РСКЕ, Регі, КиЬу 1.9 

Это регулярное выражение работает только в трех диалектах, поддер¬ 
живающих алфавиты Юникода, как уже описывалось в рецепте 2.7. Но 
сам принцип использования опережающей проверки для сопоставле¬ 
ния одного и того же символа более одного раза может использоваться 
во всех диалектах, описываемых в этой книге. 

Когда механизм регулярных выражений выполняет поиск совпадения 
для выражения <(?=\р{ТІіаі})\р{М}>, он начинает с того, что входит в опере¬ 
жающую проверку для каждой позиции в испытуемой строке, откуда 
начинается попытка сопоставления. Если символ в данной позиции от¬ 
сутствует в алфавите ТЬаі (то есть проверка <\р{ТГіаі}> терпит неудачу), 
опережающая проверка терпит неудачу. Это приводит к тому, что вся по¬ 
пытка сопоставления признается неудачной, и механизм регулярных 
выражений вынужден начинать новую попытку со следующего символа. 

Когда регулярное выражение достигает символа из алфавита ТЬаі, про¬ 
верка <\р{ТІіаі}> проходит успешно. Вследствие этого и вся опережаю¬ 
щая проверка <(?=\р{ТПаі})> признается совпавшей. Выходя из опере¬ 
жающей проверки, механизм регулярных выражений восстанавливает 
найденное ранее соответствие в прежнее состояние. В данном случае пе¬ 
ред первым найденным символом алфавита ТЬаі общее совпадение име¬ 
ло нулевую длину. Затем выполняется проверка <\р{М}>. Поскольку опе- 
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режающая проверка отменяет свое совпадение, подвыражение <\р{И}> 
сравнивается с тем же символом, с которым уже совпала проверка 
<\р{ТІлаі}>. Если этот символ имеет свойство ИитЬег Юникода, проверка 
<\р{N }> совпадет. Поскольку подвыражение <\р{М}> находится за предела¬ 
ми какой-либо проверки соседних символов, оно поглощает символ 
и выражение обнаруживает тайскую цифру. 

Проверки являются атомарными 

Когда механизм регулярных выражений покидает группу проверки со¬ 
седних символов, он отказывается от текста, совпавшего с проверкой. 
Поскольку текст совпадения отвергается, все позиции возврата, сохра¬ 
ненные операторами выбора или квантификаторами внутри проверки, 
также отвергаются. Это обеспечивает атомарность опережающих и рет¬ 
роспективных проверок. В рецепте 2.14 во всех подробностях описыва¬ 
ется атомарная группировка. 

В большинстве ситуаций атомарная природа проверки остается невос¬ 
требованной. Проверка соседних символов - это всего лишь попытка 
выяснить, совпадет ли регулярное выражение, находящееся внутри нее, 
или нет. Сколькими способами может произойти это совпадение, не 
имеет никакого значения, потому что проверка не поглощает ни одного 
символа из испытуемого текста. 

Атомарность начинает обретать значение только при использовании со¬ 
храняющих групп внутри опережающей (и ретроспективной, если это 
допускает используемый диалект) проверки. Даже при том что опере¬ 
жающая проверка не поглощает текст, механизм регулярных выраже¬ 
ний запоминает, какая часть текста совпала с любой из сохраняющих 
групп внутри опережающей проверки. Если опережающая проверка на¬ 
ходится в конце регулярного выражения, в сохраняющих группах мо¬ 
жет оказаться совпавший с ними текст, не совпавший с самим регуляр¬ 
ным выражением. Если опережающая проверка находится в середине 
регулярного выражения, может случиться так, что в сохраняющих 
группах окажутся перекрывающиеся участки испытуемого текста. 

Единственная ситуация, когда атомарность проверки может повлиять 
на общее совпадение регулярного выражения, - это когда за пределами 
проверки используются обратные ссылки на сохраняющие группы, рас¬ 
положенные внутри проверки. Рассмотрим следующее регулярное вы¬ 
ражение: 

(?=(\< Н -))\*+\1 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЪЬоп, КиЪу 

На первый взгляд, это регулярное выражение должно совпадать с тек¬ 
стом 123x12 . Элемент <\сІ+> мог бы сохранить фрагмент 12 в первой сохра¬ 
няющей группе, затем элемент <\м+> мог бы совпасть с фрагментом Зх, и 
наконец, ссылка <\1> могла бы совпасть с фрагментом 12. 
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Но этого никогда не произойдет. Механизм регулярных выражений 
входит в проверку и сохраняющую группу. Максимальный метасимвол 
<\сІ+> совпадает с фрагментом 123. Это совпадение сохраняется в первой 
сохраняющей группе. Затем механизм выходит из опережающей про¬ 
верки и переустанавливает позицию поиска совпадений в начало стро¬ 
ки, отвергая все позиции возврата, созданные максимальным кванти¬ 
фикатором, но запоминает текст 123, сохраненный первой сохраняю¬ 
щей группой. 

Теперь предпринимается попытка сопоставить максимальный элемент 
<\\л/+> с начала строки. Он поглощает весь текст 123x12 . Сопоставление 
с обратной ссылкой <\1>, ссылающейся на текст 123, терпит неудачу 
в конце строки. Подвыражение <\м+> уступает один символ. Сопоставле¬ 
ние с <\1> опять терпит неудачу. Подвыражение <\\л/+> продолжает усту¬ 
пать символы, пока у него не останется минимально возможный фраг¬ 
мент 1. Сопоставление с обратной ссылкой <\1> в позиции, следующей за 
первым символом 1, также терпит неудачу. 

Заключительный фрагмент текста 12 мог бы совпасть с обратной ссыл¬ 
кой <\1>, если бы механизм регулярных выражений мог вернуться в опе¬ 
режающую проверку и отказаться от совпадения 123 в пользу совпаде¬ 
ния с 12, но он этого не делает. 

Механизм регулярных выражений исчерпал все позиции возврата. Под¬ 
выражение <\\л/+> уступило все, что могло, а опережающая проверка, вы¬ 
полнившая подвыражение <\сІ+>, отбросила все позиции возврата. В ре¬ 
зультате попытка отыскать совпадение с регулярным выражением тер¬ 
пит неудачу. 

Альтернатива ретроспективной проверке 

<Ь>\К\м+(?=</Ь>) 

Параметры: нечувствительность к регистру символов 

Диалекты: РСКЕ 7.2, Регі 5.10 

Регі 5.10, РСКЕ 7.2 и более поздние версии поддерживают альтернатив¬ 
ный ретроспективным проверкам механизм в виде метасимвола <\К>. 
Когда механизм регулярных выражений встречает метасимвол <\К> в ре¬ 
гулярном выражении, он сохраняет текст текущего совпадения. Сопо¬ 
ставление будет продолжено, как если бы метасимвол <\К> вообще отсут¬ 
ствовал в регулярном выражении. Но текст совпадения, найденного до 
встречи метасимвола <\К>, не будет включен в общий результат. Текст, 
совпавший с любыми сохраняющими группами до метасимвола <\К>, по- 
прежнему будет доступен для обратных ссылок после <\К>. Метасимвол 
<\К> оказывает влияние только на общий результат сопоставления. 

Суть в том, что во многих ситуациях метасимвол <\К> можно использо¬ 
вать вместо положительной ретроспективной проверки. Выражение 
<Ье1"оге\КЩхЪ совпадет с фрагментом Іехі: , но только если ему предшеству¬ 
ет фрагмент Ье'Роге, подобно выражению <(?<=Ье1 = оге)1:ех1:>. Преимущество 
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метасимвола <\К> перед положительной ретроспективной проверкой 
в диалектах Регі и РСКЕ состоит в том, что он позволяет использовать 
все возможности механизма регулярных выражений, тогда как ретро¬ 
спективные проверки имеют некоторые ограничения, например недо¬ 
пустимость применения квантификаторов. 

Главное отличие метасимвола <\К> от ретроспективной проверки в том, 
что при использовании <\К> сопоставление выполняется строго слева на¬ 
право. То есть механизм регулярных выражений не заглядывает назад. 
Ретроспективные проверки заставляют его возвращаться. Эта разница 
становится существенной в ситуациях, когда часть регулярного выра¬ 
жения, следующая за метасимволом <\К> или за ретроспективной про¬ 
веркой, может совпадать с тем же текстом, с которым совпала часть ре¬ 
гулярного выражения, предшествующая метасимволу <\К> или находя¬ 
щаяся внутри ретроспективной проверки. 


Регулярное выражение <(?<=а)а> найдет два совпадения в строке ааа. 
Первая попытка найти совпадение в начале строки потерпит неудачу, 
потому что механизм регулярных выражений ничего не обнаружит при 
попытке выполнить ретроспективную проверку. Попытка найти совпа¬ 
дение, начиная с позиции между первым и вторым символами а, увен¬ 
чается успехом. Заглянув назад, механизм регулярных выражений об¬ 
наружит первый символ а в строке, удовлетворяющий условиям ретро¬ 
спективной проверки. После этого второй элемент <а> в регулярном вы¬ 
ражении совпадет со вторым символом а в строке. Третья попытка 
сопоставления будет предпринята в позиции между вторым и третьим 
символами а и также увенчается успехом. Заглянув назад, механизм 
регулярных выражений обнаружит второй символ а в строке, удовле¬ 
творяющий условиям ретроспективной проверки. Затем будет найдено 
совпадение с третьим символом а. Последняя попытка сопоставления 
будет предпринята в конце строки и потерпит неудачу. Заглянув назад, 
механизм регулярных выражений обнаружит третий символ а, удовле¬ 
творяющий условиям ретроспективной проверки. Но для второго эле¬ 
мента <а> в строке не останется символов. 


Регулярное выражение <а\Ка> обнаружит только одно совпадение в стро¬ 
ке. Первая же попытка сопоставления увенчается успехом. Первый эле¬ 
мент <а> в регулярном выражении совпадет с первым символом а в стро¬ 
ке. Метасимвол <\К> исключит эту часть совпадения из общего возвра¬ 
щаемого результата, но никак не повлияет на сам процесс сопоставле¬ 
ния. Второй элемент <а> в регулярном выражении затем совпадет со 
вторым символом а в строке, который и будет возвращен в виде общего 
совпадения. Вторая попытка сопоставления начнется между вторым 
и третьим символами а. Первый элемент <а> совпадет с третьим симво¬ 
лом а. Метасимвол <\К> исключит его из общего результата, но механизм 
регулярных выражений продолжит процесс сопоставления как ни в чем 
не бывало. Однако для второго элемента <а> в строке не останется симво¬ 
лов, поэтому попытка сопоставления потерпит неудачу. 
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Как видите, применение метасимвола <\К> не влияет на процесс сопостав¬ 
ления регулярного выражения. Регулярное выражение <а\Ка> будет обна¬ 
руживать те же совпадения, что и сохраняющая группа в выражении 
<а(а)>. Вы не сможете использовать <\К> для сопоставления с одной и той 
же частью строки более чем один раз, а ретроспективные проверки по¬ 
зволяют это. Например, чтобы найти совпадение с символом а, которому 
предшествует тайская цифра (то есть символ, одновременно являющий¬ 
ся символом алфавита ТЬаі и цифрой), можно использовать выражение 
<(? <= \р{ТІіаі})(?<=\р{Мс1})а>. Если попытаться использовать выражение 
<\р{ТРаі}\К\р{Мс!}\Ка>, оно обнаружит совпадение с фрагментом, состоя¬ 
щим из символа алфавита ТЬаі, за которым следуют цифра и символ а, 
но вернет только символ а. И снова здесь наблюдается сходство с выра¬ 
жением <\р{ТІіаі}\р{МсІ}(а)>, совпадающим со всеми тремя символами 
и использующим сохраняющую группу для захвата части совпадения. 

Решение без использования ретроспективной проверки 

Все предыдущие замысловатые пояснения будут бесполезны, если вы 
пользуетесь КиЬу 1.8 или ЛѵаЗсгірІ, потому что вы вообще не сможете 
воспользоваться ретроспективными проверками. Нет никакого способа 
решить эту проблему с помощью этих диалектов, но можно обойтись 
без ретроспективной проверки, применив сохраняющие группы. Это 
альтернативное решение также будет работать во всех других диалек¬ 
тах регулярных выражений. 

(<Ь>)(\м+)(?=</Ь>) 

Параметры: нечувствительность к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаВсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

Вместо ретроспективной проверки мы использовали сохраняющую 
группу для открывающего тега «Ь>>. Интересующую нас часть регуляр¬ 
ного выражения, <\\л/+>, мы также поместили в сохраняющую группу. 

Если применить это регулярное выражение к тексту Му <Ь>са1:</Ь> із 
Гиггу, общим совпадением для всего регулярного выражения будет 
фрагмент <Ь>са~Е . Первая сохраняющая группа захватит фрагмент <Ь>, 
а вторая - фрагмент саі . 

Если требуется, чтобы совпадение содержало только слово саі (слово 
между тегами <Ь>), - например, чтобы выделить из текста только сло¬ 
во, - добиться этого можно простым сохранением не всего совпадения 
с регулярным выражением, а только текста, совпавшего со второй со¬ 
храняющей группой. 

Если требуется выполнить поиск с заменой и заменить только слово 
между тегами, можно просто использовать обратную ссылку на первую 
сохраняющую группу, чтобы повторно вставить в текст открывающий 
тег в замещаемый текст. На самом деле, в данном случае сохраняющая 
группа вообще не нужна, так как открывающий тег всегда остается од- 
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ним и тем же. Но когда тег может изменяться, сохраняющая группа 
вставит именно тот тег, который совпал с ней. Подробнее этот прием 
рассматривается в рецепте 2.21. 

Наконец, при желании можно имитировать ретроспективную проверку 
с помощью двух регулярных выражений. Первое выполняет поиск без 
ретроспективной проверки. Когда обнаруживается совпадение, нужно 
скопировать часть испытуемого текста, находящуюся перед совпадени¬ 
ем, в новую строковую переменную. Второе регулярное выражение реа¬ 
лизует проверку, которая выполнялась в ретроспективной проверке, при 
этом в конец выражения следует добавить привязку к концу строки (<\і> 
или <$>). Якорный метасимвол обеспечит совпадение конца второго выра¬ 
жения с концом строки. Поскольку строка извлекается из текста в пози¬ 
ции, где совпало первое выражение, это обеспечит выполнение второй 
проверки непосредственно перед совпадением с первым выражением. 

В ЛѵаВсгірІ этот алгоритм можно было бы реализовать так: 

ѵаг таіпгедехр = /\м+(?=<\/Ь>)/; 
ѵаг ІоокЬеШпсІ = /<Ь>$/; 

іі (таісіі = таіпгедехр. ехес("Му <Ь>са1:</Ь> із іиггу")) { 

// Найдено слово перед закрывающим тегом </Ь> 
ѵаг роіепііаітаіісіі = таісН[0]; 

ѵаг ІеііСопіехІ: = таісП. іприі. зиЬзігіпд(0, таісН. іпсіех); 
іі (ІоокЬеНіпй.ехесЦеііСопіехІ:)) { 

// Ретроспективная проверка совпала: 

// содержимое переменной роіепііаІтаісН находится между тегами <Ь> 

} еізе { 

// Ретроспективная проверка не совпала: 

// переменная роіепііаІтаісН содержит не то, что требуется 

} 

} еізе { 

// Слово перед закрывающим тегом </Ь> не найдено 

} 

См. также 

Рецепты 5.5, 5.6 и 7.10, где приводятся решения некоторых практиче¬ 
ских задач с применением проверок. 

2.17. Совпадение с одной из двух 
альтернатив по условию 

Задача 

Создать регулярное выражение, совпадающее со списком слов опе, Ііѵѵо 
и іб гее, разделенных запятыми. Эти слова присутствуют в списке не ме¬ 
нее чем в одном экземпляре и могут следовать в произвольном порядке. 
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Решение 

\Ь(?: (? : (опе) | (Иѵ/о) | (НИ гее) ) (?:, |\Ь)){3, }(?(1)|(?! ))(?(2) | (?! ))(?(3) | (?! )) 

Параметры: нет 

Диалекты: .ЫЕТ, РСКЕ, Регі, РуНюп 

Диалекты ^ѵа, ^ѵа8сгір1 и КиЬу не поддерживают условные операто¬ 
ры. При программировании на этих языках (или любых других) можно 
использовать регулярные выражения без условных операторов, напи¬ 
сав дополнительный программный код, проверяя совпадения с каждой 
из трех сохраняющих групп. 

\Ь(? :(?: (опе) |(1:ѵю)| (1:1лгее))(?:, |\Ь)){3, } 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгір!;, РСКЕ, Регі, РуНюп, КиЬу 

Обсуждение 

Диалекты .1ЧЕТ, РСКЕ, Регі и Руііюп поддерживают условные операто¬ 
ры при использовании нумерованных сохраняющих групп. Выраже¬ 
ние <(?(1К/?е/ч|еІ5е)> - это условный оператор, проверяющий совпадение 
с первой сохраняющей группой. Если группа участвовала в совпаде¬ 
нии, механизм регулярных выражений попытается найти совпадение 
<1:Ііеп>. Если сохраняющая группа до сих пор не участвовала в совпаде¬ 
нии, выполняется попытка сопоставить часть <еІ8е>. 

Круглые скобки, знак вопроса и вертикальная черта - все эти символы 
составляют синтаксис условного оператора. В данном случае их значе¬ 
ние отличается от обычного. В частях <ТІіеп> и <е1зе> допускается исполь¬ 
зовать любые регулярные выражения. Единственное ограничение состо¬ 
ит в том, что при необходимости использовать оператор выбора в какой- 
либо из частей альтернативы следует заключать в группу. В условном 
операторе допускается использовать только один символ вертикальной 
черты. 

При желании можно опустить любую из частей <іІіеп> или <е1$е>. Пустое 
регулярное выражение всегда имеет совпадение нулевой длины. В ре¬ 
шении этой задачи используются три условных оператора, в которых 
опущена часть <іІіеп>. Если сохраняющая группа участвовала в сопо¬ 
ставлении, считается, что условие выполняется. 

Пустая отрицательная опережающая проверка, <(?!)>, заполняет часть 
<е1$е>. Поскольку пустое регулярное выражение всегда совпадает, отри¬ 
цательная опережающая проверка, содержащая пустое регулярное вы¬ 
ражение, всегда будет терпеть неудачу. То есть условие <(?(1) | (?!))> нико¬ 
гда не будет выполняться, если первая сохраняющая группа не совпала 
с чем-нибудь. 

Поместив каждую из трех обязательных альтернатив в отдельную со¬ 
храняющую группу, можно использовать три условных оператора в кон- 
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це регулярного выражения, чтобы проверить наличие совпадений для 
каждой сохраняющей группы. Если хотя бы с одним из слов не будет 
найдено совпадение, условная ссылка на соответствующую сохраняю¬ 
щую группу выполнит часть <е1зе > , которая вызовет неудачу сопостав¬ 
ления из-за наличия пустой отрицательной опережающей проверки 
в этой части. То есть регулярное выражение будет терпеть неудачу, если 
в испытуемом тексте отсутствует хотя бы одно искомое слово. 

Чтобы порядок следования слов и число их вхождений в испытуемом 
тексте не оказывали влияния на результат, мы заключили оператор вы¬ 
бора в группу и добавили квантификатор для этой группы. Так как по 
условиям задачи требуется определить присутствие всех трех слов, со¬ 
поставление с группой необходимо повторить не менее трех раз. 

Диалекты .ЫЕТ, РуЫюп и РСКЕ 6.7 позволяют ссылаться на именован¬ 
ные сохраняющие группы в условных операторах. Выражение <(Цпате) 
ТІіеп\ е1зе)> проверяет, участвовала ли сохраняющая группа с именем 
пате в сопоставлении к настоящему моменту. Версии Регі 5.10 и выше 
также поддерживают именованные условные операторы. Но Регі требу¬ 
ет заключать имя в угловые скобки или кавычки, например: <(?(<пате>) 
іІіеп\е1зе)> или <(?('пате')1/іеп\е1зе)>. Версии РСКЕ 7.0 и выше тоже под¬ 
держивают синтаксис Регі именованных условных операторов, но при 
этом также поддерживают синтаксис .ЫЕТ и РуІЬоп. 

Чтобы лучше понять, как работают условные операторы, рассмотрим 
регулярное выражение <(а)?Ь(?(1)с|сІ)>. Это, по сути, более сложная фор¬ 
ма записи <аЬс|Ьсі)>. 

Если испытуемый текст начинается с символа а, он сохраняется в пер¬ 
вой сохраняющей группе. В противном случае первая сохраняющая 
группа вообще не участвует в сопоставлении. Знак вопроса, находя¬ 
щийся за пределами сохраняющей группы, имеет важное значение, так 
как он делает всю группу необязательной. Если символ а отсутствует, 
группа повторяется ноль раз и никогда не получит возможность сохра¬ 
нить что-либо. Она не может сохранить строку нулевой длины. 

Если бы использовалось подвыражение <(а?)>, группа всегда участвова¬ 
ла бы в сопоставлении. Так как в этом подвыражении после группы нет 
квантификатора, она повторялась бы точно один раз. Группа сохранила 
бы символ а либо не сохранила ничего. 

Независимо от наличия совпадения с <а>, далее идет следующая лексе¬ 
ма <Ь>. За ней следует проверка условия. Если сохраняющая группа уча¬ 
ствовала в сопоставлении, даже если она сохранит строку нулевой дли¬ 
ны (что здесь невозможно), будет предпринята попытка найти соответ¬ 
ствие для <с>. В противном случае будет произведена попытка сопостав¬ 
ления с <СІ>. 

Говоря простым языком, выражение <(а)?Ь(?(1)с|сІ)> либо совпадает 
с фрагментом аЬ, за которым следует с, либо совпадает с Ь, за кото¬ 
рым следует 6. 
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В диалектах .ЫЕТ, РСКЕ и Регі, но не в диалекте РуЙюп, условные опе¬ 
раторы могут также выполнять проверку соседних символов. Выраже¬ 
ние <(?(?-! і : )іІібп\е1зѳ)> сначала выполняет <(?=іО> как обычную опере¬ 
жающую проверку. Как это работает, описывается в рецепте 2.16. Если 
проверка увенчалась успехом, выполняется попытка сопоставления 
с частью <іІіеп>, в противном случае - с частью <е1зе>. Поскольку провер¬ 
ка ничего не поглощает из испытуемого текста, обе части <іІіеп> и <еІ8е> 
применяются к одной и той же позиции в испытуемом тексте, где про¬ 
изводилась проверка условия <ІТ>, независимо от результата проверки. 

В условном операторе вместо опережающей проверки можно использо¬ 
вать ретроспективную проверку. Можно также использовать отрица¬ 
тельные проверки, хотя мы не рекомендуем делать это, так как можно 
только все запутать, перевернув значения подвыражений «ІЬеп» и «еізе». 



Выражение с условием, использующим проверку, может быть за¬ 
писано без применения условного оператора, например: 
?Ііеп\(?\іТ)еІ5е>. Если положительная опережающая проверка дает 
положительный результат, выполняется попытка сопоставления 
части <Г/?ел>. В противном случае выполняется попытка сопоставить 
альтернативный вариант. Затем то же самое делает отрицательная 
опережающая проверка. Отрицательная опережающая проверка за¬ 
вершается успехом, когда подвыражение <ІТ> не находит соответст¬ 
вия, что происходит гарантированно, так как проверка уже 

потерпела неудачу. В результате предпринимается попытка сопоста¬ 
вить подвыражение <е1зе>. Размещение опережающей проверки в ус¬ 
ловном операторе экономит время, так как в этом случае условие <іТ> 
проверяется всего один раз. 


См. также 

Условные операторы по своей сути являются комбинациями проверок 
(рецепт 2.16) и операторов выбора (рецепт 2.8) внутри групп (рецепт 2.9). 

Разделы «Пропуск некорректных идентификаторов І8ВЫ» (рецепт 4.13) 
и «Использование условных конструкций» (рецепт 5.7), где показаны 
приемы решения некоторых практических задач с использованием ус¬ 
ловных операторов. 

2.18. Добавление комментариев 
в регулярные выражения 

Задача 

Выражение <\сІ{4}-\сі{2}-\с1{2}> совпадает с датами в формате уууу-тт-бб, 
но не выполняет проверку чисел на корректность. Такое простое регу¬ 
лярное выражение вполне может использоваться на практике, когда 
заранее известно, что текст не может содержать некорректные даты. 
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Необходимо добавить комментарии в это регулярное выражение, чтобы 
описать, что делают его части. 

Решение 

\0{4} # Год 

# Разделитель 
\сі {2} # Месяц 

# Разделитель 
\с1 {2} # День 

Параметры: режим свободного форматирования 
Диалекты: .ИЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуѣЬоп, КиЬу 

Обсуждение 

Режим свободного форматирования 

Регулярные выражения быстро становятся очень сложными и трудны¬ 
ми для понимания. Так же как и при работе с исходными текстами про¬ 
грамм, желательно комментировать все регулярные выражения, за ис¬ 
ключением самых тривиальных. 

Все диалекты регулярных выражений, рассматриваемые в этой кни¬ 
ге, за исключением ^ѵаВсгір!;, предлагают альтернативный синтак¬ 
сис оформления регулярных выражений, который существенно упро¬ 
щает добавление комментариев в регулярные выражения. На исполь¬ 
зование этого синтаксиса можно перейти, включив параметр свобод¬ 
ного форматирования . В различных языках программирования этот 
параметр носит разные имена. 

В .ЫЕТ необходимо включить параметр ЕедехОрІііопз. ІдпогеРа1:1:егп\л/Мі1;е- 
зрасе. В ^ѵа - передать флаг РаИегп.СОММЕМТЗ. В РуЙюп этот флаг называ¬ 
ется ге.ѴЕРВОЗЕ, в РНР, Регі и КиЬу для этих целей используется флаг /х. 

Хотя стандартный диалект ^ѵаЗсгірЪ не поддерживает режим свобод¬ 
ного форматирования регулярных выражений, библиотека ХКе^Ехр 
предоставляет такую возможность. Для этого достаточно просто доба¬ 
вить ’х' в список флагов, передаваемых конструктору ХПедЕхрО во вто¬ 
ром параметре. 

Включение режима свободного форматирования влечет за собой появ¬ 
ление двух эффектов. В этом режиме в число метасимволов включается 
символ решетки (#), имеющий специальное назначение за пределами 
символьных классов. С символа решетки начинаются комментарии, 
которые продолжаются до конца строки или до конца регулярного вы¬ 
ражения (в зависимости от того, какое условие выполнится первым). 
Символ решетки и все, что следует за ним, просто игнорируются меха¬ 
низмом регулярных выражений. Чтобы оформить поиск совпадения 
с символом решетки, его следует поместить в символьный класс <[#]> 
или экранировать <\#>. 
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Другой эффект состоит в том, что пробельные символы, в число которых 
входят пробелы, символы табуляции и символы перевода строки, также 
игнорируются за пределами символьных классов. Чтобы оформить по¬ 
иск совпадения с символом пробела, его следует поместить в символь¬ 
ный класс <[*]> или экранировать <Ѵ>. Для обеспечения большей удобо¬ 
читаемости можно использовать шестнадцатеричную экранированную 
последовательность <\х20>, или кодовый пункт Юникода <\и0020>, или 
<\х{0020}>. Чтобы оформить поиск совпадения с символом табуляции, 
следует использовать метасимвол <\1>. Для поиска конца строки следует 
использовать комбинацию <\г\п> (ЛѴіпсіо\ѵ8) или <\п> (ІШІХ/Ілпих/08 X). 

Режим свободного форматирования не влияет на порядок оформления 
символьных классов. Символьный класс - это единый элемент. Любые 
пробельные символы или символы решетки внутри символьных клас¬ 
сов рассматриваются как литералы, добавленные в символьный класс. 
Нет никакой возможности разбить символьный класс на отдельные 
части, чтобы прокомментировать их. 

Символьные классы .Іаѵа, поддерживающие 
свободное форматирование 

Регулярные выражения едва ли заслужили бы столь высокую репута¬ 
цию, если бы один диалект был несовместим с другими. В данном слу¬ 
чае ^ѵа - исключение из правил. 

В диалекте ^ѵа символьные классы не являются едиными и недели¬ 
мыми элементами. При включении режима свободного форматирова¬ 
ния диалект ^ѵа начинает игнорировать пробельные символы в сим¬ 
вольных классах, а символы решетки в символьных классах играют 
роль начала комментариев. Это означает потерю возможности исполь¬ 
зовать <[♦]> и <[#]> для поиска соответствий с литералами этих символов. 
Вместо них придется использовать экранированные последовательно¬ 
сти <\и0020> и <\#>. 

Варианты 

(?#Уеаг)\сІ{4}(?#Зерага1:ог)-(?#МогЦІі)\сІ{2}-(?#0ау)\сІ{2} 

Параметры: нет 

Диалекты: .ЫЕТ, ХКе^Ехр, РСКЕ, Регі, РуЙюп, ЕиЬу 

Если по каким-то причинам невозможно или нежелательно использо¬ 
вать режим свободного форматирования, можно добавлять коммента¬ 
рии в форме <(?#соттепІ)>. Все символы между <(?#> и <)> будут игнориро¬ 
ваться. 

К сожалению, диалект ^ѵаЗсгірІ, который единственный из рассмат¬ 
риваемых в этой книге не поддерживает режим свободного формати¬ 
рования, также не поддерживает и альтернативный синтаксис оформле¬ 
ния комментариев. Библиотека ХКе^Ехр, добавляющая поддержку сво¬ 
бодного форматирования регулярных выражений в ^ѵа8сгір1;, также 
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добавляет и поддержку синтаксиса комментариев. Хотя диалект ^ѵа 
поддерживает комментарии в режиме свободного форматирования ре¬ 
гулярных выражений, он не поддерживает синтаксис <(?#соттегЦ)>. 

(?х)\сІ{4} # Год 

# Разделитель 

\сІ {2} # Месяц 

# Разделитель 

\сі {2> # День 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, Руйюп, КиЬу 

Если нет возможности включить режим свободного форматирования за 
пределами регулярного выражения, можно в самое начало регулярного 
выражения добавить модификатор <(?х)>. Обратите внимание, что перед 
модификатором <(?х)> не должно быть пробелов. Режим свободного фор¬ 
матирования включается только начиная с позиции этого модификато¬ 
ра - любые пробелы перед ним имеют значение. 

Подробнее о модификаторах рассказывается в рецепте 2.1 в подразделе 
«Поиск без учета регистра символов». 

2.19. Вставка текстового литерала 
в замещающий текст 

Задача 

Для любого регулярного выражения, выполняющего поиск с заменой 
совпадения, подготовить замещающий текст со следующими символа¬ 
ми: $%\*$1\1. 

Решение 

$%Ѵ$$1\1 

Диалекты замещающего текста: .ЫЕТ, ^ѵа8сгір1 

\$%\\*\$і\\і 

Диалект замещающего текста: ^ѵа 

$%\*\$1\\1 

Диалект замещающего текста: РНР 

\$%\*\$А\1 

Диалект замещающего текста: Регі 


Диалекты замещающего текста: РуНюп, КиЪу 




134 


Глава 2. Основные навыки владения регулярными выражениями 


Обсуждение 

Когда и как экранировать символы в замещающем тексте 

Данный рецепт демонстрирует разные правила экранирования, исполь¬ 
зуемые в разных диалектах замещающего текста. Единственные два 
символа, которые может потребоваться экранировать в замещающем 
тексте, - это знак доллара и символ обратного слэша. Символами экра¬ 
нирования также являются знак доллара и символ обратного слэша. 

Знак процента и звездочка в этом примере всегда интерпретируются 
как обычные литералы, однако предшествующий символ обратного 
слэша может интерпретироваться как экранирующий символ, а не как 
литерал. «$1» и/или «\1» являются обратными ссылками на сохраняю¬ 
щую группу. В рецепте 2.21 описывается, в каком диалекте какой син¬ 
таксис используется для оформления обратных ссылок. 

Тот факт, что эта задача имеет пять решений для семи диалектов заме¬ 
щающего текста, демонстрирует отсутствие стандартного синтаксиса 
для замещающего текста. 

.МЕТ и .ІаѵаБсгірІ 

Диалекты .ЫЕТ и ^ѵаЗсгірѣ всегда интерпретируют символ обратного 
слэша как литерал. Его не требуется экранировать другим символом 
обратного слэша, в противном случае замещающий текст будет содер¬ 
жать два символа обратного слэша. 

Одиночный знак доллара рассматривается как литерал. Знак доллара 
требуется экранировать, только если за ним следуют цифра, ампер¬ 
санд, обратный апостроф, прямая кавычка, символ подчеркивания, 
знак плюс или другой знак доллара. Чтобы экранировать знак доллара, 
перед ним нужно поместить еще один знак доллара. Все знаки доллара 
можно продублировать, если вам кажется, что это сделает замещаю¬ 
щий текст более удобочитаемым. Следующее решение совершенно иден¬ 
тично тому, что приводится выше. 

$$%\*$$ 1\1 

Диалект замещающего текста: .ЫЕТ, ^ѵаЗсгірі; 

Кроме того, в диалектах .ЫЕТ и ХКе&Ехр необходимо экранировать знак 
доллара, предшествующий открывающей фигурной скобке. В диалек¬ 
тах .ЫЕТ и ХКе^Ехр последовательность «${дгоир}» интерпретируется 
как именованная обратная ссылка. Диалект ^ѵаЗсгірІ не поддерживает 
именованные обратные ссылки без использования библиотеки ХКе&Ехр. 

Іаѵа 

В диалекте ^ѵа для экранирования обратного слэша и знака доллара 
в замещающем тексте используется символ обратного слэша. Все литера¬ 
лы обратного слэша и литералы знака доллара должны экранироваться 
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символом обратного слэша. Если этого не сделать, будет возбуждено ис¬ 
ключение. 


РНР требует, чтобы все цифры и знаки доллара, предшествующие циф¬ 
ре или открывающей фигурной скобке, экранировались символом об¬ 
ратного слэша. 

Обратный слэш экранирует другой символ обратного слэша. Так, чтобы 
вставить в замещающий текст два символа слэша, их следует записать 
как «\\\\». Все остальные символы обратного слэша интерпретируются 
как литералы. 

РегІ 

Диалект РегІ несколько отличается от других диалектов замещающего 
текста: в действительности в нем нет диалекта замещающего текста. 
Тогда как в других языках программирования в процедурах поиска 
с заменой присутствует специальная логика, выполняющая подстанов¬ 
ку для таких конструкций, как «$1», в языке РегІ это обычная интер¬ 
претация переменной. В замещающем тексте необходимо экранировать 
символом обратного слэша все литералы знака доллара, как если бы 
они присутствовали в строке, ограниченной кавычками. 

Единственное исключение состоит в том, что в языке РегІ поддержива¬ 
ется синтаксис «\1» оформления обратных ссылок. Поэтому необходимо 
экранировать символ обратного слэша, за которым следует цифра, если 
обратный слэш должен интерпретироваться как литерал. Обратный 
слэш, за которым следует знак доллара, также должен экранироваться, 
чтобы предотвратить экранирование знака доллара. 

Обратный слэш экранирует другой символ обратного слэша. Так, чтобы 
вставить в замещающий текст два символа слэша, их следует записать 
как «\\\\». Все остальные символы обратного слэша интерпретируются 
как литералы. 

РуіНоп и КиЬу 

В диалектах РуІЬоп и КиЪу знак доллара не имеет специального значе¬ 
ния в замещающем тексте. Символы обратного слэша должны экрани¬ 
роваться другими обратными слэшами, если за ними следует символ, 
придающий обратному слэшу специальное значение. 

В диалекте РуІЬоп конструкции с «\1» по «\9» и «\д<» образуют обратные 
ссылки. Эти символы обратного слэша необходимо экранировать. 

В диалекте КиЬу необходимо экранировать символ обратного слэша, за 
которым следует цифра, амперсанд, обратный апостроф, прямая ка¬ 
вычка или знак плюс. 

Кроме того, в обоих языках обратный слэш экранирует другой символ 
обратного слэша. Так, чтобы вставить в замещающий текст два символа 
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слэша, их следует записать как «\\\\». Все остальные символы обратно¬ 
го слэша интерпретируются как литералы. 

Дополнительные правила экранирования 
для строковых литералов 

Не забывайте, что в этой главе мы имеем дело только с регулярными 
выражениями и замещающим текстом как таковыми. Языки програм¬ 
мирования и строковые литералы будут рассматриваться в следующей 
главе. 

Любой замещающий текст из продемонстрированных выше сможет 
применяться, только когда функции гер1асе() передается фактическая 
строковая переменная, хранящая этот текст. Другими словами, если 
в приложении имеется поле ввода, куда пользователь вводит замещаю¬ 
щий текст, эти решения демонстрируют, что должен вводить пользова¬ 
тель, чтобы функция поиска с заменой работала, как ожидается. Если 
проверить команды поиска с заменой в Ке^ехВшМу или в другой про¬ 
грамме проверки регулярных выражений, этот рецепт продемонстри¬ 
рует ожидаемые результаты. 

Но те же замещающие тексты не будут работать, если вставить их непо¬ 
средственно в исходный текст программы и окружить кавычками. 
Строковые литералы в языках программирования определяют собст¬ 
венные правила экранирования, и этим правилам необходимо следо¬ 
вать, применяя их поверх правил экранирования, определяемых диа¬ 
лектом замещающего текста. На практике в конечном итоге может по¬ 
лучиться частокол из символов обратного слэша. 

См. также 

Рецепт 3.14, где демонстрируется, как добавлять операции поиска с за¬ 
меной в исходный программный код. 

2.20. Вставка совпадения с регулярным 
выражением в замещающий текст 

Задача 

Выполнить поиск с заменой, в процессе которого все адреса ШІЬ будут 
преобразованы в ссылки НТМЬ, указывающие на эти адреса, и исполь¬ 
зовать обнаруженные адреса ШІЬ как замещающий текст. Для данного 
упражнения примем, что адреса ЧКЬ начинаются с последовательно¬ 
сти «Ыйр:», за которой следуют любые непробельные символы. Напри¬ 
мер, текст Ріеазе ѵізіі іі1:Ір://ш\л/.гедехсоокЬоок.сот должен превратить¬ 
ся в текст Ріеазе ѵізіі <а ІлгеГ=’’Іі1:1:р://\л/ш. гедехсоокЬоок.сот”>Іт1:1р://м\л/\л/. 
гедехсоокЬоок.соітК/а>. 
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Решение 

Регулярное выражение 

Ш1:р:\3+ 

Параметры: нет 

Диалекты: ^ЕТ, Лѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Замещающий текст 

<а^ Іп ге^=" $&” >$&</а> 

Диалекты замещающего текста: .МЕТ, ЛѵаЗсгірі, Регі 

<а*Ііге1 : ="$0">$0</а> 

Диалекты замещающего текста: .МЕТ, Лѵа, ХКе&Ехр, РНР 

<а^1п ге'Г="\0">\0</а> 

Диалекты замещающего текста: РНР, КиЪу 

<а*Иге‘Р=”\&" > \& < /а> 

Диалект замещающего текста: КиЪу 

<а*Ііге1 : = , Лд<0>">\д<0></а> 

Диалект замещающего текста: РуіЬоп 


Обсуждение 

Вставка всего совпадения с регулярным выражением обратно в заме¬ 
щающий текст обеспечивает простой способ вставки нового текста пе¬ 
ред, после или вокруг совпавшего текста или даже между несколькими 
копиями совпавшего текста. Чтобы использовать совпадение со всем 
регулярным выражением, не потребуется добавлять какие-либо сохра¬ 
няющие группы в регулярное выражение, за исключением диалекта 
РуѣЬоп. 

В языке Регі комбинация «$&» фактически является переменной. В слу¬ 
чае успеха в этой переменной сохраняется общее совпадение с регуляр¬ 
ным выражением. Однако использование конструкции «$&» отрица¬ 
тельно сказывается на производительности любых регулярных выра¬ 
жений в Регі, поэтому может оказаться предпочтительнее заключить 
все регулярное выражение в сохраняющую группу и использовать об¬ 
ратную ссылку на эту группу. 

Диалекты .1ЧЕТ и ^ѵаЗсгірІ поддерживают синтаксис «$&» для вставки 
совпадения с регулярным выражением в замещающий текст. В диалек¬ 
те КиЪу в аналогичной конструкции вместо знака доллара использует¬ 
ся символ обратного слэша, поэтому общее совпадение может быть 
вставлено с помощью последовательности «\&». 

В диалектах Лѵа, РНР и РуЙюп отсутствует специальный элемент для 
вставки совпадения со всем регулярным выражением, но они позволяют 
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вставлять в замещающий текст совпадение с сохраняющей группой, 
как описывается в следующем разделе. Все регулярное выражение в них 
рассматривается как неявная сохраняющая группа с номером 0. Чтобы 
сослаться на нулевую сохраняющую группу в языке РуЦгоп, необходи¬ 
мо использовать синтаксис именованных обратных ссылок. РуІЬоп не 
поддерживает синтаксис «\0». 

Диалекты .ЫЕТ, ХКе&Ехр и КиЪу также поддерживают синтаксис об¬ 
ращения к нулевой сохраняющей группе, но в них совершенно неваж¬ 
но, какой синтаксис используется. Результат будет тем же самым. 

См. также 

Различные диалекты замещающего текста описываются в разделе «По¬ 
иск с заменой с помощью регулярных выражений» в главе 1. 

Рецепт 3.15, где рассказывается, как использовать текст замены в ис¬ 
ходном программном коде. 

2.21. Вставка части совпадения с регулярным 
выражением в замещающий текст 

Задача 

Найти совпадение с любой непрерывной последовательностью из 10 цифр, 
например 1234567890. Преобразовать эту последовательность в формат 
представления телефонных номеров, например (123) 456-7890. 

Решение 

Регулярное выражение 

\Ь (\сІ {3}) (\Й{3> )(\Й{4} )\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

Замещающий текст 

($1)'$2-$3 

Диалекты замещающего текста: .ЫЕТ, Лаѵа, Лаѵа8сгір1, РНР, Регі 

(${1}).${2>-${3> 

Диалекты замещающего текста: .ЫЕТ, РНР, Регі 

(\1)*\2-\3 

Диалекты замещающего текста: РНР, РуіЬоп, КиЪу 
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Обсуждение 

Замещение с использованием сохраняющих групп 

В рецепте 2.10 описывалось, как использовать сохраняющие группы 
в регулярном выражении, чтобы получить более одного совпадения 
с одним и тем же текстом. Текст, совпавший с каждой из сохраняющих 
групп, также будет доступен после каждого успешного совпадения. 
Текст из некоторых или всех сохраняющих групп можно вставлять 
в замещающий текст в любом порядке и даже несколько раз. 

Некоторые диалекты, такие как РуНюп и КиЪу, используют одинако¬ 
вый синтаксис «\1» обратных ссылок как в регулярных выражениях, 
так и в замещающем тексте. Другие диалекты используют синтаксис 
Регі «$1», где вместо обратного слэша применяется знак доллара. РНР 
поддерживает оба варианта. 

В языке Регі ссылки «$1» и с иными цифрами фактически являются пе¬ 
ременными, значения которых устанавливаются после каждого успеш¬ 
ного совпадения регулярного выражения. Их можно использовать в лю¬ 
бом месте программного кода, пока не будет предпринята новая попыт¬ 
ка сопоставления регулярного выражения. Диалекты .ЫЕТ, Заѵа, Заѵа- 
8сгірІ и РНР поддерживают синтаксис «$1» только в замещающем 
тексте. Для доступа к содержимому сохраняющих групп в программ¬ 
ном коде на этих языках программирования предоставляются иные 
способы. Более подробно об этом рассказывается в главе 3. 

$10 и выше 

Все диалекты регулярных выражений, рассматриваемые в этой книге, 
поддерживают до 99 сохраняющих групп в регулярных выражениях. 
В замещающем тексте может возникать неоднозначность интерпрета¬ 
ции обратных ссылок для «$10» или «\10» и выше. Они могут интерпре¬ 
тироваться и как обратная ссылка на группу с номером 10, и как обрат¬ 
ная ссылка на первую группу, за которой следует литерал «О». 

Диалекты .ЫЕТ, ХКе&Ехр, РНР и Регі позволяют помещать номер со¬ 
храняющей группы в фигурные кавычки, устраняя неоднозначность. 
Последовательность «${10}» всегда обозначает обратную ссылку на со¬ 
храняющую группу с номером 10, а последовательность «${1}0» всегда 
обозначает обратную ссылку на первую сохраняющую группу, за кото¬ 
рой следует литерал «О». 

Диалекты ^ѵа и ЛѵаЗсгірІ пытаются правильно интерпретировать по¬ 
следовательность «$10». Если в регулярном выражении существует со¬ 
храняющая группа с указанным двузначным номером, такая последо¬ 
вательность будет интерпретироваться как обратная ссылка на со¬ 
храняющую группу. Если число сохраняющих групп меньше, только 
первая цифра будет использоваться как ссылка на группу, а ноль бу¬ 
дет интерпретироваться как литерал. То есть последовательность «$23» 
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будет означать ссылку на сохраняющую группу с номером 23, только 
если таковая существует в регулярном выражении. В противном слу¬ 
чае она будет обозначать ссылку на вторую сохраняющую группу, за ко¬ 
торой следует литерал «3». 

Диалекты .ЫЕТ, ХКе^Ехр, РНР, Регі, РуІЬоп и КиЬу всегда интерпре¬ 
тируют последовательность «$10» и «\10» как ссылку на сохраняющую 
группу с номером 10 независимо от ее существования. Если такой груп¬ 
пы не существует, вступают в действия правила, применяемые к ссыл¬ 
кам на несуществующие группы. 

Ссылки на несуществующие группы 

Регулярное выражение, представленное в решении для этого рецепта, 
содержит три сохраняющих группы. Если в замещающем тексте ука¬ 
зать последовательность «$4» или «\4», она будет интерпретироваться 
как ссылка на несуществующую сохраняющую группу. Это вызовет 
три варианта действий. 

^ѵа, ХКе&Ехр и РуІЬоп завопят о нарушении, возбудив исключение 
или вернув сообщение об ошибке. В этих диалектах не следует исполь¬ 
зовать ошибочные обратные ссылки. (На самом деле, ошибочные обрат¬ 
ные ссылки не следует использовать ни в одном из диалектов.) Если 
нужно, чтобы последовательность «$4» или «\4» интерпретировалась 
буквально, необходимо экранировать знак доллара или символ обрат¬ 
ного слэша. Подробнее об этом рассказывается в рецепте 2.19. 

РНР, Регі и КиЬу подставляют в замещающий текст все ссылки, вклю¬ 
чая и те, что указывают на несуществующие сохраняющие группы. Не¬ 
существующие группы ничего не сохраняют, и потому ссылки, указы¬ 
вающие на такие группы, замещаются пустым текстом. 

Наконец, .ЫЕТ и ^ѵаВсгір! (без ХКе^Ехр) интерпретируют обратные 
ссылки на несуществующие сохраняющие группы как литеральный 
текст. 

Все диалекты выполняют замещение ссылок на сохраняющие группы, 
существующие в регулярном выражении, но не сохранившие ничего. 
Такие ссылки замещаются пустым текстом. 

Решение с использованием именованных сохранений 

Регулярное выражение 

\Ь(?<агеа>\с1 {3}) (?<ехсГіапде>\с! {3}) (?<питЬе г>\с1 {4} )\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

\Ь(? ’ агеа ’ \сІ {3}) (? ’ ехсМапде ’ \сІ{3} ) (? ’ питЬе г ’ \с! {4 > )\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, РСКЕ 7, Регі 5.10, КиЬу 1.9 
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\Ь(?Р<агеа>\с1{3} )(?Р<ехсііапде>\с1{3} )(?Р<питЬег>\сі{4} )\Ь 

Параметры: нет 

Диалекты: РСКЕ, Регі 5.10, РуІЬоп 

Замещающий текст 

(${а геа})*${ехсМапде}-${питЬег} 

Диалекты замещающего текста: .ЫЕТ, ^ѵа 7, ХКе^Ехр 

(\д<агеа>)Лд<ехсІіапде>-\д<питЬег> 

Диалект замещающего текста: РуІЬоп 

(\к<агеа>)Лк<ехсііапде>-\к<питЬег> 

Диалект замещающего текста: КиЪу 1.9 

(\к'агеа' )®\к'ехсІпапде' -\к' пипЬег’ 

Диалект замещающего текста: КиЬу 1.9 

($+{агеа})*$+{ехс(папде}-$+{питЬег} 

Диалект замещающего текста: Регі 5.10 

($1)*$2-$3 

Диалект замещающего текста: РНР 

Диалекты, поддерживающие именованные сохранения 

Диалекты .ЫЕТ, ^ѵа 7, РуІЬоп и КиЬу 1.9 позволяют использовать в за¬ 
мещающем тексте именованные обратные ссылки, если в регулярном 
выражении используются именованные сохраняющие группы. Син¬ 
таксис именованных обратных ссылок для работы с именованными со¬ 
храняющими группами в тексте замены отличается от синтаксиса, ис¬ 
пользуемого в регулярных выражениях. 

В диалекте замещающего текста КиЬу используется тот же синтаксис 
обратных ссылок, что и в регулярных выражениях. Для именованных 
групп в КиЬу 1.9 синтаксис имеет вид: «\к<дгоир>» или «\к'дгоир ». Выбор 
между угловыми скобками и апострофами - это вопрос личных пред¬ 
почтений. 

В версиях Регі 5.10 и выше фрагменты, совпавшие с именованными со¬ 
храняющими группами, запоминаются в хеше %+, благодаря чему их 
можно извлекать по именам сохраняющих групп обращением к $+{пате}. 
Регі выполняет интерполяцию переменных в замещающем тексте, по¬ 
этому текст «$+{папе}» будет интерпретироваться как именованная об¬ 
ратная ссылка в тексте замены. 

РНР (при использовании библиотеки РСКЕ) поддерживает именованные 
сохраняющие группы в регулярных выражениях, но не в замещающем 
тексте. Чтобы обратиться к именованным группам, присутствующим 
в регулярном выражении, в замещающем тексте можно использовать 
нумерованные обратные ссылки. Диалект РСКЕ присваивает номера 
именованным и нумерованным группам в направлении слева направо. 
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Диалекты .ЫЕТ, Заѵа 7, ХКе^Ехр, РуІЬоп и КиЪу 1.9 также позволяют 
использовать нумерованные ссылки на именованные группы. Однако 
для именованных групп в диалекте .ЫЕТ используется иная схема нуме¬ 
рации, как описывается в рецепте 2.11. Смешивание именованных и ну¬ 
мерованных групп в диалектах .ЫЕТ, Заѵа 7, ХКе&Ехр, РуУюп и КиЬу не 
рекомендуется. Желательно, чтобы либо все группы были именованны¬ 
ми, либо все - нумерованными. Для обращения к именованным груп¬ 
пам всегда следует использовать именованные обратные ссылки. 

См. также 

Рецепт 2.9, где рассказывается о сохраняющих группах, к которым 
можно обращаться с помощью обратных ссылок. 

Рецепт 2.11, где рассказывается об именованных сохраняющих груп¬ 
пах. Возможность именования групп в регулярном выражении упро¬ 
щает чтение и сопровождение регулярного выражения. 

Различные диалекты замещающего текста описываются в разделе «По¬ 
иск с заменой с помощью регулярных выражений» в главе 1. 

Рецепт 2.10, где демонстрируется, как использовать обратные ссылки 
в самом регулярном выражении. В тексте замены используется иной 
синтаксис определения обратных ссылок. 

Рецепт 3.15, где рассказывается, как использовать текст замены в ис¬ 
ходном программном коде. 

2.22. Вставка контекста совпадения 
в замещающий текст 

Задача 

Создать замещающий текст, который заместит совпадение с регулярным 
выражением текстом, расположенным перед совпадением, всем испы¬ 
туемым текстом и остатком испытуемого текста, расположенным после 
совпадения. Например, если в тексте ВеГогеМаІісИАГІіег был найден фраг¬ 
мент МаШі, его следует заменить текстом Ве^огеВе1 : огеМа1:сИА1 : 1егА‘Г1:ег, в ре¬ 
зультате должен получиться текст Ве^огеВеІ'огеВе^огеМаІхІіА^ІегАІ'ІегАІ^ег. 

Решение 

$'$_$' 

Диалекты замещающего текста: .ЫЕТ, Регі 

ѵѵх&ѵѵ 

Диалект замещающего текста: КиЬу 

$'$'$&$'$’ 

Диалект замещающего текста: ЗаѵаВсгірІ 
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Обсуждение 

Под термином контекст подразумевается испытуемый текст, к кото¬ 
рому применялось регулярное выражение. Контекст делится на три 
части: испытуемый текст перед совпадением с регулярным выражени¬ 
ем, испытуемый текст после совпадения и весь испытуемый текст. 
Текст, расположенный перед совпадением, иногда называют левым кон¬ 
текстом , а текст, расположенный после совпадения, соответственно 
правым контекстом . Весь испытуемый текст образуется левым кон¬ 
текстом, совпадением и правым контекстом. 

Диалекты .ЫЕТ и Регі поддерживают конструкции «$'», «$ » и «$_», кото¬ 
рые вставляют все три составляющие контекста в замещающий текст. 
Фактически в языке Регі эти конструкции являются переменными, 
значения которых устанавливаются после успешного совпадения с ре¬ 
гулярным выражением и которые доступны в любом месте в программ¬ 
ном коде, пока не будет выполнена новая попытка сопоставления. Ком¬ 
бинация «$'» обозначает левый контекст. Символ обратного апострофа 
вводится с клавиатуры в раскладке И.8. нажатием на клавишу, распо¬ 
ложенную левее клавиши с цифрой 1 в левом верхнем углу клавиату¬ 
ры. Комбинация «$ » обозначает правый контекст. В качестве прямой 
кавычки здесь используется обычный апостроф. На клавиатуре в рас¬ 
кладке II.8. клавиша с этим символом находится между клавишей 
с точкой с запятой и клавишей Епіег. Комбинация «.$_» обозначает весь 
испытуемый текст. Подобно диалектам .ЫЕТ и Регі, диалект ^ѵа8сгір! 
использует комбинации «$'» и «$’» для обозначения левого и правого 
контекстов. Однако в Лѵа8сгірІ отсутствует элемент, соответствую¬ 
щий всему испытуемому тексту. При работе с этим диалектом можно 
восстановить весь испытуемый текст, вставив текст совпадения между 
левым и правым контекстами с помощью конструкции «$&». 

В диалекте КиЬу доступ к левому и правому контекстам поддерживает¬ 
ся конструкциями «V» и «V», а текст совпадения с регулярным выраже¬ 
нием вставляется конструкцией «\&». Как и в ^ѵаЗсгірІ, здесь нет эле¬ 
мента, с помощью которого можно было бы вставить весь испытуемый 
текст. 

См. также 

Различные диалекты замещающего текста описываются в разделе «По¬ 
иск с заменой с помощью регулярных выражений» в главе 1. 

Рецепт 3.15, где рассказывается, как использовать текст замены в ис¬ 
ходном программном коде. 




Программирование с применением 
регулярных выражений 


Языки программирования и диалекты 
регулярных выражений 

В этой главе описывается, как реализовать регулярные выражения 
в различных языках программирования. Приведенные рецепты пред¬ 
полагают, что в вашем распоряжении уже имеется готовое регулярное 
выражение; в этом вы можете опираться на предыдущую главу. Теперь 
перед вами стоит задача поместить регулярное выражение в исходный 
текст программы и заставить его работать. 

В этой главе мы приложили максимум усилий, чтобы объяснить, как 
и почему каждый фрагмент программного кода работает тем или иным 
способом. Высокий уровень детализации может сделать чтение этой 
главы от начала до конца достаточно утомительным занятием. Если вы 
читаете книгу «Регулярные выражения. Сборник рецептов» в первый 
раз, мы рекомендуем бегло просмотреть эту главу, чтобы получить об¬ 
щее представление о том, что может потребоваться. Позднее, когда по¬ 
явится необходимость реализовать какое-либо из регулярных выраже¬ 
ний, рассматриваемых в последующих главах, можно будет вернуться 
сюда и подробнее узнать, как интегрировать регулярные выражения 
в программу, написанную на том или ином языке программирования. 

В главах с 4 по 9 демонстрируются регулярные выражения, предназна¬ 
ченные для решения практических задач. Основное внимание в этих 
главах уделяется самим регулярным выражениям, и во многих рецеп¬ 
тах программный код вообще не демонстрируется. Чтобы заставить ка¬ 
кое-то регулярное выражение, приведенное в следующих главах, рабо¬ 
тать, просто нужно включить его в один из фрагментов программного 
кода, которые демонстрируются в данной главе. 
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Поскольку последующие главы основное внимание уделяют именно ре¬ 
гулярным выражениям, они представляют решения для определенных 
диалектов регулярных выражений, а не для языков программирова¬ 
ния. Между диалектами регулярных выражений и языками програм¬ 
мирования нет точного соответствия. Языки сценариев обычно исполь¬ 
зуют собственный встроенный диалект регулярных выражений, дру¬ 
гие языки программирования опираются на библиотеки, реализующие 
поддержку регулярных выражений. Некоторые библиотеки могут ис¬ 
пользоваться в нескольких языках программирования, а в некоторых 
языках программирования имеется возможность использовать разные 
библиотеки. В разделе «Множество диалектов регулярных выражений» 
(глава 1) описываются все диалекты регулярных выражений, рассмат¬ 
риваемые в этой книге. В разделе «Множество диалектов определения 
замещающего текста» (глава 1) перечислены диалекты определения за¬ 
мещающего текста, используемого в операциях поиска с заменой, с при¬ 
менением регулярных выражений. Все языки программирования, опи¬ 
сываемые в этой главе, используют один из этих диалектов. 

Языки, рассматриваемые в этой главе 

В этой главе рассматриваются восемь языков программирования. Каж¬ 
дый рецепт имеет отдельные решения для всех языков, а во многих ре¬ 
цептах также даются отдельные пояснения для всех восьми языков. 
Если применяемый прием относится сразу к нескольким языкам, мы 
повторим его в пояснениях для каждого из этих языков. Вы без всякого 
ущерба для себя можете пропускать пояснения для языков программи¬ 
рования, которые вас не интересуют. 

С# 

Язык программирования С# используется платформой МісгозоН 
.ЫЕТ Егателѵогк. Классы ЗузІет.ТехІ.РедіЛагЕхргеззіопз используют 
диалект регулярных выражений и диалект замещающего текста 
«.ЫЕТ». В этой книге охватываются версии С# с 1.0 по 4.0 или Ѵізиаі 
біисііо с версии 2002 по 2010. 

ѴВ.ЫЕТ 

Под названиями ѴВ.ЫЕТ и Ѵізиаі Вазіс. МЕТ, используемыми в этой 
книге, подразумевается Ѵізиаі Вазіс 2002 и более поздние версии, что¬ 
бы обозначить отличие этих версий от Ѵізиаі Вазіс 6 и более ранних. 
В настоящее время Ѵізиаі Вазіс использует платформу МісгозоН .ІМЕТ 
Егателѵогк. Классы ЗузІет.ТехОедиІагЕхргеззіопз используют диа¬ 
лект регулярных выражений и диалект замещающего текста «.ЫЕТ». 
В этой книге охватываются версии Ѵізиаі Вазіс с 2002 по 2010. 

^ѵа 

Версия ^ѵа 4 стала первой версией, обеспечившей встроенную под¬ 
держку регулярных выражений в виде пакета ]аѵа.и1:і1. гедех. Пакет 
]аѵа. уШ. гедех использует диалект регулярных выражений и диалект 
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замещающего текста <^аѵа». В этой книге охватываются версии 
4аѵа 4, 5, 6 и 7. 

с ІаѵаЗсгірі 

Этот диалект регулярных выражений используется в языке програм¬ 
мирования, который наиболее широко известен под названием Заѵа- 
8сгірІ. Все современные веб-браузеры реализуют поддержку этого 
языка программирования: ІпЬегпеі Ехріогег (начиная с версии 5.5), 
Еігеіюх, Орега, 8а^агі и Сйготе. Многие приложения также исполь¬ 
зуют Заѵа8сгірѣ в качестве языка сценариев. 

Строго говоря, в этой книге под названием ^аѵа8с^ірі подразумева¬ 
ется язык программирования, определяемый третьей и пятой вер¬ 
сиями стандарта ЕСМА-262. Этот стандарт дает определение языка 
программирования ЕСМАЗсгірІ;, который более известен в различ¬ 
ных веб-браузерах по его реализациям ЗаѵаЗсгірі; и 38сгір{;. 

Кроме того, стандарты ЕСМА-262ѵЗ и ЕСМА-262ѵ5 дают определе¬ 
ние диалектов регулярных выражений и замещающего текста, ис¬ 
пользуемых в языке ЗаѵаЗсгірІ;. В данной книге эти диалекты обо¬ 
значаются названием « Заѵа8сгірі». 

ХВедЕхр 

ХКе&Ехр - это открытая библиотека ЗаѵаЗсгірі, разработанная Сти¬ 
веном Левитаном (81еѵеп ЪеѵШіап). Получить ее можно по адресу 
Мір:/ /хге§ехр.сот. Библиотека ХКе&Ехр расширяет синтаксис регу¬ 
лярных выражений диалекта ЗаѵаВсгірі;. Она также предоставля¬ 
ет функции, замещающие функции сопоставления регулярных вы¬ 
ражений на языке ЗаѵаЗсгірІ, скрывая некоторые несовместимости 
браузеров, и несколько новых высокоуровневых функций, упрощаю¬ 
щих обход всех найденных совпадений. 

В большинстве рецептов в этой главе мы не будем отделять решения 
для ЗаѵаЗсгірі; и ХКе&Ехр. Вы можете использовать стандартные ре¬ 
шения для ЗаѵаЗсгірі с регулярными выражениями, созданными 
с применением ХКе^Ехр. В ситуациях, когда применение библиоте¬ 
ки ХКе^Ехр обеспечивает более удачное решение, мы будем показы¬ 
вать код не только для стандартного ^ѵаЗсгірі;, но и для ЗаѵаЗсгірІ; 
с библиотекой ХКе&Ехр. 

РНР 

В языке РНР имеется три набора функций, предназначенных для 
работы с регулярными выражениями. Мы настоятельно рекоменду¬ 
ем использовать семейство функций ргед. В этой книге рассматрива¬ 
ются только функции семейства ргед, которые были встроены в язык 
РНР начиная с версии 4.2.0. В этой книге охватываются версии 
РНР 4 и 5. Функции ргед в языке РНР являются обертками вокруг 
функций библиотеки РСКЕ. Диалект регулярных выражений РСКЕ 
в этой книге обозначается «РСКЕ». Поскольку в библиотеке РСКЕ от¬ 
сутствуют функции, реализующие поиск с заменой, разработчиками 
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языка РНР был выработан собственный синтаксис определения за¬ 
мещающего текста для функции ргед_гер1асе. Данный диалект заме¬ 
щающего текста в этой книге обозначается как «РНР». 

Семейство функций тЬ_егед является составной частью семейства 
«многобайтовых» функций языка РНР, предназначенных для рабо¬ 
ты с текстом на языках, для которых традиционно используется 
многобайтовое представление символов, таких как японский и ки¬ 
тайский. В версии РНР 5 функции семейства тЬ_егед используют 
библиотеку поддержки регулярных выражений Опі^игата, которая 
изначально предназначалась для языка программирования КиЪу. 
Диалект регулярных выражений Опі^игата в этой книге обознача¬ 
ется как «КиЪу 1.9». Использовать функции семейства тЬ_егед реко¬ 
мендуется только в случае необходимости работы с многобайтовы¬ 
ми представлениями символов при условии, что вы уже знакомы 
с функциями тЬ_ языка РНР. 

Семейство функций егед является старейшим семейством функций 
поддержки регулярных выражений в языке РНР и официально не ре¬ 
комендуется к использованию начиная с версии РНР 5.3.0. Эти функ¬ 
ции не зависят от внешних библиотек и реализуют диалект Р08ІХ 
ЕКЕ. Данный диалект поддерживает лишь ограниченный набор воз¬ 
можностей и в этой книге не рассматривается. Диалект Р08ІХ ЕКЕ - 
это ограниченное подмножество диалектов КиЪу 1.9 и РСКЕ. Регу¬ 
лярные выражения, применяемые в вызовах функций егед, можно 
использовать в функциях тЬ_егед и ргед. При этом в случае функций 
ргед придется добавить разделители в стиле языка Регі (рецепт 3.1). 

Регі 

То, что язык Регі имеет встроенную поддержку регулярных выраже¬ 
ний, является главной причиной их популярности в наши дни. Диа¬ 
лекты регулярных выражений и замещающего текста, используе¬ 
мые операторами т// и з/// языка Регі, в этой книге обозначаются на¬ 
званием «Регі». В этой книге рассматриваются версии Регі 5.6, 5.8, 
5.10 и 5.14. 

Руікоп 

Язык программирования РуіЪоп обеспечивает поддержку регуляр¬ 
ных выражений посредством модуля ге. Диалекты регулярных вы¬ 
ражений и замещающего текста, используемые этим модулем, в дан¬ 
ной книге обозначаются как «РуіЬоп». В этой книге рассматривают¬ 
ся версии РуІЪоп от 2.4 до 3.2. 

ЕиЪу 

Поддержка регулярных выражений в языке КиЪу реализована как 
часть самого языка. В этой книге рассматриваются версии КиЪу 1.8 
и 1.9. В этих двух версиях КиЪу по умолчанию используются разные 
реализации механизма регулярных выражений. В версии КиЪу 1.9 
по умолчанию используется механизм Опі&игата, обладающий бо¬ 
лее широкими возможностями, чем классический механизм в версии 
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КиЬу 1.8. Более подробно об этом рассказывается в разделе «Диалек¬ 
ты регулярных выражений, рассматриваемые в этой книге» (глава 1). 

В этой главе мы не будем углубляться в различия между версиями 
КиЬу 1.8 и 1.9. Здесь демонстрируются лишь самые простые регуляр¬ 
ные выражения, в которых не используются новые особенности вер¬ 
сии КиЬу 1.9. Поскольку поддержка регулярных выражений вклю¬ 
чена непосредственно в язык КиЬу, программный код на этом языке, 
использующий регулярные выражения, остается неизменным неза¬ 
висимо от того, скомпилирован КиЬу с поддержкой классического ме¬ 
ханизма регулярных выражений или механизма Опі^игата. В слу¬ 
чае необходимости версия КиЬу 1.8 может быть скомпилирована 
с поддержкой механизма Опі^игата. 

Другие языки программирования 

Языки программирования, перечисленные ниже, не рассматриваются 
в этой книге, но они используют тот или иной диалект регулярных вы¬ 
ражений из описываемых здесь. Если вы используете один из этих язы¬ 
ков, можете просто пропустить эту главу, при этом другие главы по- 
прежнему будут для вас полезны. 

АсііопЗсгірі 

Язык программирования АсііопЗсгірі - это реализация стандарта 
ЕСМА-262, выполненная компанией АйоЬе. Начиная с версии 3.0 
язык АсііопЗсгірі полностью поддерживает регулярные выражения 
стандарта ЕСМА-262ѵЗ. Данный диалект регулярных выражений 
в этой книге обозначается как « ЛѵаЗсгірІ». Кроме того, язык Асііоп¬ 
Зсгірі очень близок к языку ЗаѵаЗсгірІ. Примеры из этой книги, ко¬ 
торые приводятся для языка ^ѵаЗсгірІ, легко могут быть адаптиро¬ 
ваны под язык АсііопЗсгірі. 

С 

В программах на языке С можно использовать широкий круг биб¬ 
лиотек поддержки регулярных выражений. Из диалектов, рассмат¬ 
риваемых в книге, наилучшим, пожалуй, выбором будет библиоте¬ 
ка РСКЕ, распространяемая с открытыми исходными текстами. За¬ 
грузить исходные тексты библиотеки на языке С можно на сайте 
кіір://юіѵю.рсге.ог$г. Программный код библиотеки написан так, что 
позволяет компилировать его с помощью самых разных компилято¬ 
ров на самых разных платформах. 

С++ 

В программах на языке С-Н- можно использовать широкий круг биб¬ 
лиотек поддержки регулярных выражений. Из диалектов, рассмат¬ 
риваемых в книге, наилучшим, пожалуй, выбором будет библиоте¬ 
ка РСКЕ, распространяемая с открытыми исходными текстами. 
В программах можно использовать С АРІ библиотеки напрямую или 
прибегнуть к помощи классов-оберток на языке С++, включенных 
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в состав РСКЕ и доступных для загрузки (подробности смотрите на 
сайте Ыір://и)юю.рсге.огд). 

В ’ѴѴіпсіолѵз можно импортировать СОМ-объект Ке^Ехр из ѴВ8сгір{, 5.5, 
как описывается далее в подразделе с описанием Ѵізиаі Вазіс 6. Это 
может пригодиться для обеспечения непротиворечивости диалектов 
регулярных выражений между серверными компонентами на С++ 
и клиентскими сценариями на ^ѵаВсгірі;. 

Стандарт С++ ТК1 определяет заголовочный файл <гедех>, содержа¬ 
щий определения функций, таких как гедех_зеагсИ(), гедех_та^с!і() 
и гедех_гер1асе(), которые можно использовать для организации по¬ 
иска в строках, проверки строк и поиска с заменой в строках с при¬ 
менением регулярных выражений. Поддержка регулярных выраже¬ 
ний, определяемая стандартом С++ ТК1, основана на библиотеке 
Воозѣ.Ке&ех. Если ваш компилятор С++ не поддерживает стандарт 
ТК1, вы можете использовать саму библиотеку ВоозІ.Ке&ех. Пол¬ 
ный комплект документации к этой библиотеке можно найти по ад¬ 
ресу кіір://іѵіѵіѵ.Ъоо8і.ог8/ІіЪ8/ге§ех/. 

Оеіркі 

Версия ОеІрЫ ХЕ стала первой, получившей встроенную поддержку 
регулярных выражений. В последующей версии Оеірііі ХЕ2 возмож¬ 
ности регулярных выражений никак не изменились. Модуль Редиіа г- 
ЕхргеззіопзАРІ, реализующий эту поддержку, является тонкой оберт¬ 
кой вокруг библиотеки РСКЕ. Скорее всего, вам не придется исполь¬ 
зовать этот модуль непосредственно. 

Модуль РедиІагЕхргеззіопзСоге реализует класс ТРегІРедЕх. Он предо¬ 
ставляет полный комплект методов для поиска, замены и разбиения 
строк с использованием регулярных выражений. Для представле¬ 
ния строк он использует тип ІІТР83і:гіпд, так как библиотека РСКЕ 
основана на применении кодировки ІІТЕ-8. Класс ТРегІРедЕх удобно 
использовать в ситуациях, когда требуется полный контроль над 
преобразованием строк в/из кодировки ІІТЕ-8 или когда исходные 
данные уже представлены текстом в кодировке ІІТЕ-8. Этот модуль 
можно также применять для переноса программного кода, написан¬ 
ного для старых версий БеІрЬі и использующего класс ТРегІРедЕх, на¬ 
писанный Яном Гойвертсом. Модуль РедиІагЕхргеззіопзСоге основан 
на наработках Яна, переданных им компании ЕтЪагсасІего. 

В новом коде вы, скорее всего, будете использовать модуль Редиіаг- 
Ехргеззіопз. Он реализует записи, такие как ТРедех и ТМаісІі, имею¬ 
щие имена и методы, близко имитирующие классы регулярных вы¬ 
ражений в .ЫЕТ Егателѵогк. Так как это обычные записи, вам не 
придется явно создавать и уничтожать их экземпляры. Они предо¬ 
ставляют массу статических методов, позволяющих использовать 
регулярные выражения в однострочных инструкциях. 

Если вам приходится работать с более старыми версиями Беірііі, ре¬ 
комендуем использовать компонент ТРегІРедЕх, написанный Яном 
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Гойвертсом. Загрузить его можно по адресу Мір://ипѵіи.геёехрЛп?о/ 
йеІркі.МтІ. Это открытый компонент, распространяемый на услови¬ 
ях лицензии Мо2ІІ1а РиЫіс Ілсепзе. Последняя версия ТРегІВедЕх 
полностью совместима с модулем ВедиІагЕхргеззіопзСоге в БеІрЫ ХЕ. 
Для новых программ, которые создаются в версиях БеІрЫ 2010 или 
ниже, мы настоятельно рекомендуем использовать ТРегІПедЕх. Если 
позднее вам придется переносить свой код на БеІрЬі ХЕ, вам останет¬ 
ся всего лишь заменить РегІНедЕх на РедиІагЕхргеззіопзСоге в предло¬ 
жениях изез. При компиляции в версиях БеІрЬі 2009 и БеІрЬі 2010 
модуль РегІРедЕх использует тип ІІТРѲЗіігіпд и обеспечивает полную 
поддержку Юникода. При компиляции в версии БеІрЬі 2007 или ни¬ 
же для представления строк используется тип АпзіЗігіпд и Юникод 
не поддерживается. 

Еще одной популярной оберткой вокруг библиотеки РОКЕ для БеІрЬі 
является класс ТЗсІПедЕх, входящий в состав библиотеки «ГСЬ (Ыір:// 
іѵияѵ.сіеірііі-іесіі.огё ). Эта библиотека также распространяется с от¬ 
крытыми исходными текстами на условиях лицензии МогШа РиЫіс 
Ілсепзе. 

ВеІрНі Ргізт 

В ПеІрЬі Ргізт можно использовать поддержку регулярных выраже¬ 
ний, предоставляемую платформой .ЫЕТ Егателѵогк. Для этого дос¬ 
таточно добавить модуль ЗузІет.ТехІ.ПедиІагЕхргеззіопз в предложе¬ 
ние изез в любом модуле БеІрЬі Ргізт, где предполагается применять 
регулярные выражения. 

После этого можно будет использовать те же приемы, которые де¬ 
монстрируются в этой главе во фрагментах программного кода на 
языках С# и ѴВ.ЫЕТ. 

Сгооѵу 

В программах на языке Сгооѵу можно использовать регулярные вы¬ 
ражения, поддержка которых обеспечивается пакетом іаѵа. иііі. гедех, 
как в языке ^ѵа. Все решения, представленные в этой главе для язы¬ 
ка ^ѵа, также должны работать и в языке Сгооѵу. Собственный син¬ 
таксис регулярных выражений в языке Сгооѵу просто обеспечивает 
сокращенную форму записи. Литерал регулярного выражения, час¬ 
ти которого отделяются друг от друга символами слэша, является 
экземпляром класса ]аѵа.1апд.3ігіпд, а оператор =~ создает экземп¬ 
ляр класса іаѵа.иііі. гедех.МаІсІіег. Вы свободно можете смешивать 
синтаксис языка Сгооѵу со стандартным синтаксисом языка ^ѵа - 
классы и объекты при этом остаются теми же самыми. 

РоіѵегЗНеІІ 

Язык РодѵегВЬеІІ - это язык сценариев, разработанный компанией 
МісгозоН и опирающийся на платформу .ЫЕТ Егателѵогк. Операто¬ 
ры -таіхіі и -геріасе, встроенные в РоѵгегЗЬеІІ, используют диалект 
регулярных выражений и замещающего текста .КЕТ, который опи¬ 
сывается в этой книге. 
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Е 

Проект К поддерживает регулярные выражения с помощью функ¬ 
ций дгер, зиЬ и гедехрг в пакете Ьазе. Все эти функции принимают 
необязательный параметр с именем регі, который получает значение 
РАІ_ЗЕ, если он опущен. Если передать в нем значение ТРШЕ, будет ис¬ 
пользоваться диалект РСКЕ, описываемый в этой книге. Регуляр¬ 
ные выражения, демонстрируемые для версии РСКЕ 7, будут рабо¬ 
тать в версии К 2.5.0 и выше. В более ранних версиях К следует ис¬ 
пользовать регулярные выражения, помеченные в этой книге как 
«РСКЕ 4 и выше». Диалекты «базовый» и «расширенный», поддер¬ 
живаемые языком К, являются устаревшими диалектами регуляр¬ 
ных выражений с ограниченными возможностями и не рассматри¬ 
ваются в этой книге. 

ЕЕАЬЪазіс 

Язык КЕАЬЪазіс имеет встроенный класс НедЕх. Реализация этого 
класса опирается на версию библиотеки РСКЕ с поддержкой коди¬ 
ровки ЬРГЕ-8. Это означает, что имеется возможность задействовать 
поддержку Юникода в библиотеке РСКЕ, но при этом придется ис¬ 
пользовать класс ТехЕСопѵегЕег языка КЕАЬЪазіс для преобразования 
текста в кодировку ИТЕ-8, прежде чем передавать его классу КедЕх. 

Все регулярные выражения, демонстрируемые в этой книге для вер¬ 
сии РСКЕ 7, будут работать и в программах на языке КЕАЬЪазіс. 
Единственная особенность КЕАЬЪазіс состоит в том, что параметры 
«нечувствительность к регистру символов» (Ведех.ОрЕіопз.СазеЗепзі- 
Еіѵе) и «символам А и $ соответствуют границы строк» (Педех.ОрІііопз. 
Тгеа1:Тагде1:Аз0пеІ_іпе) включены по умолчанию. Если появится необ¬ 
ходимость использовать регулярные выражения из этой книги, для 
которых явно не говорится, что они используют эти режимы сопо¬ 
ставления, их следует явно отключить в программе на языке 
КЕАЬЪазіс. 

Зсаіа 

Язык 8са1а обладает встроенной поддержкой регулярных выраже¬ 
ний посредством модуля зсаІа.и'Ш.таІсІііпд. Эта поддержка построе¬ 
на на основе механизма регулярных выражений пакета д аѵа. иЫ1. 
гедех языка ^ѵа. Диалекты регулярных выражений и замещающе¬ 
го текста, используемые в языках ^ѵа и 8са1а, обозначаются в этой 
книге как « ^ѵа». 

Ѵізиаі Вазіс 6 

Версия Ѵізиаі Вазіс 6 - это последняя версия Ѵізиаі Вазіс, которая 
не требует наличия платформы ^ЕТ Егателѵогк. Это также означа¬ 
ет, что Ѵізиаі Вазіс 6 не использует превосходную поддержку регу¬ 
лярных выражений, реализованную в платформе .ЫЕТ Егателѵогк. 
Примеры программного кода на языке ѴВ.ЫЕТ, которые приводятся 
в этой книге, вообще не будут работать в ѴВ 6. 
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Ѵізиаі Вазіс б обеспечивает простоту использования функциональных 
возможностей, предоставляемых библиотеками АсііѵеХ и СОМ. Од¬ 
ной из таких библиотек является библиотека МісгозоН ѴВ8сгір1, ко¬ 
торая начиная с версии 5.5 обладает неплохой поддержкой регуляр¬ 
ных выражений. Библиотека реализует тот же диалект регулярных 
выражений, что используется в языке Заѵа8сгірі, описываемый стан¬ 
дартом ЕСМА-262ѵЗ. Данная библиотека является частью Іпіегпеі; 
Ехріогег 5.5 и выше. Она доступна на любом компьютере, работающем 
под управлением операционной системы ІѴіпсклѵз ХР или Ѵізіа, а так¬ 
же в предыдущих версиях АУіпсІолѵз при условии, что там установле¬ 
на версия Іпіегпеі Ехріогег 5.5 или выше. В эту категорию входят 
практически все персональные компьютеры, работающие под управ¬ 
лением АУіпсІолѵз и используемые для подключения к Интернету. 

Чтобы использовать эту библиотеку в приложении на языке Ѵізиаі 
Вазіс, нужно выбрать пункт меню РгоіесІІКе^егепсеБ в среде разработки 
ѴВ. Прокрутить список и отыскать в нем пункт «МісгозоН ѴВ8сгір1 
Ке^иіаг Ехргеззіопз 5.5», расположенный сразу же под пунктом 
«МісгозоН ѴВ8сгірі Ке^иіаг Ехргеззіопз 1.0». Убедитесь, что выбра¬ 
ли версию 5.5, а не 1.0. Версия 1.0 предоставляется только для со¬ 
хранения обратной совместимости, а ее возможности менее чем удо¬ 
влетворительны. 

После добавления ссылки можно будет увидеть, какие классы пре¬ 
доставляются библиотекой и какие члены входят в состав этих клас¬ 
сов. Для этого нужно выбрать пункт меню Ѵіеѵѵ|0Ь]’ес1: Вгоѵѵбѳг. В окне 
Оі^есі: Вгоѵѵзег и в раскрывающемся списке в левом верхнем углу нуж¬ 
но выбрать библиотеку «ѴВ8сгірі;_Ке^Ехр_55». 

3.1. Литералы регулярных выражений 
в исходных текстах 

Задача 

Имеется регулярное выражение <[$ ’\п\сІ/\\]>, являющееся решением 
некоторой задачи. Это регулярное выражение представляет собой сим¬ 
вольный класс, которому соответствуют знак доллара, кавычка, апост¬ 
роф, символ перевода строки, любая цифра в диапазоне от 0 до 9, сим¬ 
вол слэша или символ обратного слэша. Необходимо вставить это регу¬ 
лярное выражение в исходный текст программы в виде строковой кон¬ 
станты или оператора регулярного выражения. 

Решение 

с# 

В виде обычной строки: 

"[$\'"\п\\Й/\\\\]" 
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В виде строкового литерала: 

@'Т$. \п\0/\\Г 

ѴВ.ЫЕТ 

"18.\п\й/\\ Г 

Іама 

"[$Ѵ"\п\\0/\\\\Г 

^ѵаБсгірІ 

/[$"'\п\й\/\\]/ 

ХКедЕхр 

"[$\'"\п\\СІ/\\\\]" 

РНР 

'%[$"\'\п\й/\\\\]%- 

РегІ 

Оператор сопоставления с шаблоном: 

/[\$-\п\сі\/\\]/ 

ш![\$” \п\Й/\\]! 

Оператор подстановки: 

8! [\$" ' \п\сІ/\\ ]! ! 

РуіЬоп 

Строка в тройных кавычках: 

г.[$"Лп\0/\\]. 

Обычная строка: 

"[$Ѵ"\п\\с1/\\\\]" 

КиЬу 

Литерал регулярного выражения, разделенный символами слэша: 

/[$• \п\0\/\\]/ 

Литерал регулярного выражения, разделенный знаками пунктуации, 
выбираемыми пользователем: 

%г! [$"' \п\сІ/\\] ! 
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Обсуждение 

Когда в этой книге демонстрируется регулярное выражение само по се¬ 
бе (в противоположность регулярному выражению, входящему в состав 
программного кода), оно всегда приводится в чистом виде. Данный ре¬ 
цепт является единственным исключением. При использовании про¬ 
граммы тестирования регулярных выражений, такой как Ке^ехВисісіу 
или Ке^ехРаІ, регулярное выражение можно было бы ввести в таком 
виде. Если некоторое приложение принимает регулярные выражения, 
вводимые пользователем, пользователь должен был бы вводить его в та¬ 
ком виде. 

Но если нужно поместить регулярное выражение в исходный текст про¬ 
граммы, придется выполнить дополнительные действия. Небрежность, 
проявленная при копировании регулярного выражения из программы 
тестирования регулярных выражений в исходный текст вашей про¬ 
граммы или обратно, часто может заставить поломать голову над тем, 
почему оно работает в программе тестирования, но не работает в исход¬ 
ном тексте программы. Или почему программа тестирования сообщает 
об ошибке в регулярном выражении, которое было скопировано из чье¬ 
го-то программного кода. Все языки программирования, рассматривае¬ 
мые в этой книге, требуют, чтобы литерал регулярного выражения был 
разграничен определенным способом. В одних языках регулярные вы¬ 
ражения должны быть оформлены как строки, а в других - как специ¬ 
альные константы регулярных выражений. Если регулярное выраже¬ 
ние содержит символы, которые являются разделителями или имеют 
специальное значение в конкретном языке программирования, их не¬ 
обходимо экранировать. 

Наиболее часто в качестве экранирующего символа используется сим¬ 
вол обратного слэша. Именно по этой причине большинство решений 
этой задачи включают гораздо большее число обратных слэшей по срав¬ 
нению с оригинальными регулярными выражениями. 

С# 

В языке С# литерал регулярного выражения может передаваться кон¬ 
структору Педех() и различным функциям-членам класса Редех. Пара¬ 
метр, в котором передается регулярное выражение, всегда объявляется 
как строка. 

Язык С# поддерживает два типа строковых литералов. Наиболее час¬ 
то используются строки в кавычках, хорошо известные по таким язы¬ 
кам программирования, как С++ и Заѵа. Внутри таких строк кавычки 
и обратные слэши должны экранироваться символом обратного слэша. 
В строках также допускается указывать экранированные последова¬ 
тельности, обозначающие неотображаемые символы, такие как <\п>. При 
использовании свойства Недех0р1:іопз.ІдпогеРаИегпіАЛпі1:езрасе (рецепт 3.4) 
для включения режима свободного форматирования, описываемого в ре- 
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цепте 2.18, наблюдаются различия между "\п" и "\\п". "\п" - это строка 
с символом перевода строки, который игнорируется как пробельный 
символ. "\\п" - это строка, включающая метасимвол <\п> регулярного 
выражения, совпадающий с символом перевода строки. 

Строковые литералы начинаются со знака @ и кавычки и заканчивают¬ 
ся кавычкой. Чтобы включить кавычку в строковый литерал, ее необхо¬ 
димо продублировать. Символы обратного слэша не требуется экрани¬ 
ровать, в результате регулярное выражение получается гораздо более 
удобочитаемым. @"\п" - это всегда метасимвол <\п> регулярного выраже¬ 
ния, который совпадает с символом перевода строки, даже в режиме 
свободного форматирования. Строковые литералы не поддерживают <\п> 
на уровне строки, зато они могут располагаться на нескольких строках. 
Это делает строковые литералы идеальными для представления регу¬ 
лярных выражений в режиме свободного форматирования. 

Выбор очевиден: чтобы поместить регулярное выражение в исходный 
текст программы на языке С#, предпочтительнее использовать строко¬ 
вые литералы. 

ѴВ.ЫЕТ 

В языке ѴВ.ЫЕТ литерал регулярного выражения может передаваться 
конструктору Недех() и различным функциям-членам класса Редех. Па¬ 
раметр, в котором передается регулярное выражение, всегда объявля¬ 
ется как строка. 

В Ѵізиаі Вазіс используются строки в кавычках. Кавычки внутри строк 
должны дублироваться. Экранировать какие-либо другие символы в них 
не требуется. 

іаѵа 

В языке Заѵа литерал регулярного выражения может передаваться фаб¬ 
ричному методу класса РаІІегп.сотріІеО и различным функциям класса 
Зігіпд. Параметр, в котором передается регулярное выражение, всегда 
объявляется как строка. 

В ^ѵа используются строки в кавычках. Кавычки и символы обратного 
слэша внутри строк должны экранироваться символом обратного слэ¬ 
ша. В строках также допускается указывать экранированные последо¬ 
вательности, обозначающие неотображаемые символы, такие как <\п>, 
и кодовые пункты Юникода, такие как <\иРРРР>. 

При использовании свойства РаІІегп.СОММЕМТЗ (рецепт 3.4) для включе¬ 
ния режима свободного форматирования, описываемого в рецепте 2.18, 
наблюдаются различия между "\п" и "\\п". "\п" - это строка с символом 
перевода строки, который игнорируется как пробельный символ. "\\п" - 
это строка, включающая метасимвол <\п> регулярного выражения, сов¬ 
падающий с символом перевода строки. 
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іаѵаБсгірІ 

В языке ^ѵаВсгірі; регулярные выражения лучше всего создавать с ис¬ 
пользованием специального синтаксиса объявления литералов регу¬ 
лярных выражений. Для этого нужно просто поместить регулярное вы¬ 
ражение между двумя символами слэша. Если символы слэша присут¬ 
ствуют в самом регулярном выражении, их следует экранировать сим¬ 
волом обратного слэша. 

Несмотря на то что имеется возможность создавать объект НедЕхр из 
строки, нет смысла использовать строковую форму записи для пред¬ 
ставления регулярных выражений в программном коде. В этом случае 
потребовалось бы экранировать кавычки и символы обратного слэша, 
что обычно приводит к появлению частокола из обратных слэшей. 

ХКедЕхр 

При использовании библиотеки ХКедЕхр для расширения синтаксиса 
регулярных выражений ^ѵаЗсгірІ; все объекты ХПедЕхр создаются из 
строк, в которых необходимо экранировать кавычки, апострофы и об¬ 
ратные слэши. 

РНР 

Синтаксис литералов регулярных выражений, используемый функ¬ 
циями ргед в языке РНР, представляет собой довольно хитроумное изо¬ 
бретение. В отличие от ^ѵа8сгірІ и Регі, в языке отсутствует специали¬ 
зированный тип регулярного выражения. Регулярные выражения все¬ 
гда должны быть представлены в виде строк. То же самое относится 
к функциям егед и тЬ_егед. Но в своем стремлении к подражанию языку 
Регі разработчики функций-оберток для библиотеки РСКЕ в языке 
РНР добавили дополнительное требование. 

Внутри строки регулярное выражение должно записываться как лите¬ 
рал регулярного выражения в языке Регі. Это означает, что там, где 
в языке Регі регулярное выражение записывается как /гедех/, при пере¬ 
даче его функциям ргед в языке РНР оно должно записываться как 
/гедех/'. Как и в языке Регі, в качестве разделителей допускается ис¬ 
пользовать любую пару знаков пунктуации. Если символ-разделитель 
присутствует внутри регулярного выражения, его необходимо экрани¬ 
ровать символом обратного слэша. Чтобы избежать этого, следует выби¬ 
рать символ-разделитель, отсутствующий внутри регулярного выраже¬ 
ния. В этом рецепте использовался знак процента, потому что символ 
слэша присутствует в регулярном выражении, а знак процента - нет. 
Если символ слэша отсутствует в регулярном выражении, можно ис¬ 
пользовать его, так как это наиболее часто используемый разделитель 
в языке Регі и обязательный разделитель в языках Лѵа8сгірІ и КиЬу. 

Язык РНР поддерживает строки в кавычках и в апострофах. В обоих 
случаях необходимо экранировать кавычки (или апострофы), а также 
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обратные слэши, присутствующие в регулярном выражении, символом 
обратного слэша. При использовании строк в кавычках дополнительно 
требуется экранировать знак доллара. Для записи регулярных выраже¬ 
ний предпочтительнее использовать строки в апострофах, если не тре¬ 
буется интерпретировать переменные внутри регулярных выражений. 

РегІ 

В языке РегІ литералы регулярных выражений используются в опера¬ 
торе сопоставления с шаблоном и в операторе подстановки. Оператор со¬ 
поставления с шаблоном содержит два символа слэша и регулярное вы¬ 
ражение, заключенное между ними. Символы слэша внутри регуляр¬ 
ного выражения должны экранироваться символами обратного слэша. 
Какие-либо другие символы экранировать не требуется, за исключени¬ 
ем, возможно, символов $ и @, по причинам, описываемым в конце этого 
раздела. 

Существует альтернативная форма записи оператора сопоставления 
с шаблоном, когда регулярное выражение помещается между парой лю¬ 
бых других знаков пунктуации; в этом случае оператор должен начи¬ 
наться с символа т. При использовании в качестве разделителей любых 
типов открывающих и закрывающих знаков пунктуации (круглые, 
квадратные или фигурные скобки) они должны соответствовать друг 
другу, например т {гедех}. Если используется другой знак пунктуации, 
следует просто использовать его дважды. В решении к этому рецепту 
используется восклицательный знак. Это позволило сэкономить на эк¬ 
ранировании символов слэша в регулярном выражении. Если в качест¬ 
ве разделителей используются знаки пунктуации, имеющие открываю¬ 
щую и закрывающую формы, то экранировать необходимо только за¬ 
крывающий знак пунктуации, если он используется в регулярном вы¬ 
ражении как литерал. 

Оператор подстановки похож на оператор сопоставления с шаблоном. 
Только вместо символа т он начинается с символа з и принимает заме¬ 
щающий текст. При использовании квадратных скобок или подобных 
им знаков пунктуации необходимо использовать две пары: з [гедех] 
[ геріасе ]. При смешивании разных разделителей также необходимо ис¬ 
пользовать две пары: з [гедех]/ геріасе/. Во всех остальных случаях знак 
пунктуации используется трижды: з /гедех/ геріасе/. 

Операторы сопоставления с шаблоном и подстановки в языке РегІ ин¬ 
терпретируются как строки в кавычках. Если регулярное выражение 
записано как <т/І*ат*$пате/> и переменная $пате хранит строку ’^ап”, 
в результате будет получено регулярное выражение <І*ат^ап>. Кроме то¬ 
го, в языке РегІ $" - это переменная, поэтому потребовалось экраниро¬ 
вать знак доллара в символьном классе регулярного выражения для 
этого рецепта. 

Никогда не следует экранировать знак доллара, который используется 
как якорный метасимвол (рецепт 2.5). Экранированный знак доллара 
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всегда интерпретируется как литерал. Язык Регі в состоянии отличать 
знаки доллара, используемые как якорные метасимволы, от знаков 
доллара, используемых для интерпретации переменных, имея в виду 
тот факт, что якорный метасимвол может использоваться только в кон¬ 
це группы, или в конце всего регулярного выражения, или перед сим¬ 
волом перевода строки. Не требуется экранировать знак доллара в вы¬ 
ражении <т/~гедех$/>, если требуется проверить, соответствует ли регу¬ 
лярному выражению «ге^ех» строка целиком. 

Символ @ не имеет специального назначения в регулярных выражени¬ 
ях, но в языке Регі он используется для интерпретации переменных. 
Его необходимо экранировать в литералах регулярных выражений, 
включенных в программный код на языке Регі, как если бы это были 
строки в кавычках. 

РуіНоп 

Функции модуля ге в языке РуІЪоп принимают литералы регулярных 
выражений в виде строк. Можно использовать любые способы опреде¬ 
ления строк, которые допускаются языком РуІЬоп. В зависимости от 
того, какие символы встречаются в регулярном выражении, различ¬ 
ные формы записи строк могут уменьшить необходимость экранирова¬ 
ния с помощью символов обратного слэша. 

Обычно наилучшим выбором являются «сырые» (галѵ) строки. Сырые 
строки в языке РуІЬоп вообще не требуют экранирования каких-либо 
символов. В случае использования сырых строк отпадает необходи¬ 
мость дублировать символы обратного слэша в регулярных выражени¬ 
ях. Строка г’ЛсИ-" читается проще, чем "\\сИ-”, особенно если регулярное 
выражение длинное. 

Единственный случай, когда сырые строки перестают быть лучшим вы¬ 
бором, - если регулярное выражение включает в себя кавычки и апост¬ 
рофы. Невозможно использовать сырую строку, заключенную в пару 
апострофов или кавычек, так как нет никакой возможности экраниро¬ 
вать кавычки внутри регулярного выражения. В такой ситуации могут 
помочь строки в тройных кавычках, как это сделано в решении для 
языка РуНюп в данном рецепте. Обычная строка показана в решении 
для сравнения. 

Если в регулярном выражении необходимо использовать возможности 
поддержки Юникода, описанные в рецепте 2.7, то в РуІЬоп 2.x надле¬ 
жит использовать строки Юникода. Можно превратить обычную стро¬ 
ку в строку Юникода, добавив перед открывающей кавычкой символ и. 
В РуіЬоп 3.0 и выше все строки автоматически интерпретируются как 
строки Юникода. 

Сырые строки не поддерживают возможность определения неотобра- 
жаемых символов, таких как \п. Они интерпретируют экранированные 
последовательности как последовательность литералов. Это не являет¬ 
ся проблемой для модуля ге. Он поддерживает эти экранированные 
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последовательности как часть синтаксиса регулярных выражений, 
а также как часть синтаксиса замещающего текста. Литерал \п в сырой 
строке по-прежнему будет интерпретироваться как символ перевода 
строки в регулярных выражениях и в замещающем тексте. 

При использовании атрибута ге.ѴЕНВОЗЕ (рецепт 3.4) для включения ре¬ 
жима свободного форматирования, описываемого в рецепте 2.18, наблю¬ 
даются различия между строкой ”\п” с одной стороны и строкой "\\п" 
и сырой строкой г"\п" — с другой. "\гГ - это строка с символом перевода 
строки, который игнорируется как пробельный символ. ”\\п” и г"\п" — 
это строки, включающие метасимвол <\п> регулярного выражения, сов¬ 
падающий с символом перевода строки. 

При использовании режима свободного форматирования лучшим вы¬ 
бором являются сырые строки в тройных кавычках, такие как г.\п., 

потому что они могут располагаться на нескольких строках. Кроме то¬ 
го, <\п> не интерпретируется на уровне строки, поэтому он может интер¬ 
претироваться на уровне регулярного выражения как метасимвол, сов¬ 
падающий с границей строки. 

КиЬу 

В языке КиЪу регулярные выражения лучше всего создавать с исполь¬ 
зованием специального синтаксиса объявления регулярных выраже¬ 
ний. Для этого нужно просто поместить регулярное выражение между 
двумя символами слэша. Если символ слэша присутствует внутри са¬ 
мого регулярного выражения, его следует экранировать символом об¬ 
ратного слэша. 

Если нежелательно экранировать символы слэша в регулярном выра¬ 
жении, можно поставить перед началом регулярного выражения пре¬ 
фикс %г и затем использовать в качестве разделителя любой другой сим¬ 
вол пунктуации. 

Несмотря на то что существует возможность создавать объекты Редехр 
из строки, тем не менее нет смысла использовать строковую форму за¬ 
писи для представления регулярных выражений в программном коде. 
В этом случае потребовалось бы экранировать кавычки и символы об¬ 
ратного слэша, что обычно приводит к появлению частокола из обрат¬ 
ных слэшей. 

В этом отношении язык КиЪу очень напоминает язык 4аѵа8сгір1, за 
исключением имени класса, которое в языке КиЪу записывается од¬ 
ним словом Ведехр, а в языке ЗаѵаЗсгірІ - как РедЕхр (в стиле «сатеі 
сарз»). 



См. также 


Рецепт 2.3, где объясняется, как работают символьные классы и поче¬ 
му в регулярных выражениях необходимо записывать два символа об- 
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ратного слэша, чтобы включить только один символ в символьный 
класс. 

Рецепт 3.4, где описывается, как установить параметры регулярного 
выражения, которые в отдельных языках программирования реализо¬ 
ваны как часть литералов регулярных выражений. 

3.2. Импортирование библиотеки 
регулярных выражений 

Задача 

Прежде чем появится возможность использовать регулярные выраже¬ 
ния в приложении, необходимо импортировать в программный код 
библиотеку регулярных выражений или пространство имен. 

В остальных фрагментах исходных текстов в этой книге предпола¬ 
гается, что импортирование уже было выполнено, если оно было не- 
ѵ обходимо. 

Решение 

С# 

изіпд Зузіет.ТехІ:. ПедиІагЕхргеззіопз; 

ѴВ.ИЕТ 

Ітрогіз Зузіет.ТехІ:. ПедиІагЕхргеззіопз 

ХКедЕхр 

В коде ^ѵабсгірі, выполняющемся в браузере: 

<зсгірі: згс="хгедехр-а11-тіп.]з"></зсгір1:> 

В коде ^ѵаЗсгірІ, выполняющемся на сервере под управлением Ыосіе.із: 

ѵаг ХВедЕхр = гедиіге(’хгедехр').ХПедЕхр; 

іаѵа 

ітрогі ]аѵа. иііі. гедех. *; 

РуіИоп 

ітрогі: ге 

Обсуждение 



В некоторых языках программирования поддержка регулярных выра¬ 
жений встроена в сам язык. При использовании этих языков не требу- 
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ется импортировать что-либо, чтобы обеспечить поддержку регуляр¬ 
ных выражений. В других языках поддержка регулярных выражений 
обеспечивается с помощью библиотек, которые необходимо импортиро¬ 
вать в исходных текстах. Некоторые языки программирования вообще 
не имеют поддержки регулярных выражений. Для таких языков про¬ 
граммирования поддержку регулярных выражений необходимо ском¬ 
пилировать и присоединить самостоятельно. 

С# 

Если поместить в начало файла с исходным программным кодом на 
языке С# инструкцию изіпд, появится возможность напрямую обра¬ 
щаться к классам, обеспечивающим функциональные возможности ре¬ 
гулярных выражений без необходимости полностью квалифицировать 
их имена. Например, обращение Зузіет.ТехІ.НедиІагЕхргеззіопз.ВедехО 
можно будет записать просто как Недех(). 

ѴВ.ЫЕТ 

Если поместить в начало файла с исходным программным кодом на 
языке ѴВ.КЕТ инструкцию Ітрогіз, появится возможность напрямую 
обращаться к классам, обеспечивающим функциональные возможно¬ 
сти регулярных выражений без необходимости полностью квалифици¬ 
ровать их имена. Например, обращение Зуз^ет.ТехЕ.НедиІагЕхргеззіопз. 
Недех() можно будет записать просто как Ведех(). 

.Іаѵа 

Чтобы в языке ^ѵа воспользоваться встроенной библиотекой регуляр¬ 
ных выражений, необходимо импортировать в приложение пакет ] аѵа . 
иііі .гедех. 

.ІаѵаЗсгірІ: 

Поддержка регулярных выражений в ^ѵаЗсгірі; встроена в язык и до¬ 
ступна всегда. 

ХКедЕхр 

Чтобы получить возможность использовать в веб-браузере расширен¬ 
ный синтаксис регулярных выражений, предоставляемый библиоте¬ 
кой ХКедЕхр, необходимо загрузить эту библиотеку. Для этого доста¬ 
точно подключить к веб-странице минимизированную версию библио¬ 
теки хгедехр-а11-тіп.]з, обеспечивающую полную функциональность 
ХКедЕхр. В этой книге в решениях на основе ХКе&Ехр предполагается, 
что подключена эта версия библиотеки. 

Если для вас время загрузки страницы имеет большое значение и вы не 
используете категории, блоки и/или алфавиты Юникода, используйте 
базовую версию библиотеки хгедехр-тіпоз и загружайте дополнитель- 
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ные модули по мере необходимости. Например, чтобы добавить синтак¬ 
сис <\р{— }> поддержки свойств Юникода, достаточно загрузить ипісосіе- 
Ьазе.]5. Далее можно загрузить ипісосІе-Ыоскз.]з, ипісосіе-саіедогіезоз 
и/или ипісосіе-зс гірііз о з, чтобы обеспечить возможность сопоставления 
с блоками, категориями и/или алфавитами Юникода с применением 
синтаксиса <\р{—}>. 

Если вы используете №х!е.]8 для выполнения сценариев ^ѵа8сгірІ на 
сервере, установите библиотеку ХКе&Ехр как пакет прт. Сделать это 
можно, выполнив команду прт іпзіаіі хгедехр в командной строке. По¬ 
сле установки серверные сценарии получат возможность импортиро¬ 
вать библиотеку ХКе^Ехр, как показано в разделе «Решение». 


Функции ргед встроены в сам язык и всегда доступны в версии РНР 4.2.0 
и выше. 

РегІ 

Встроенная поддержка регулярных выражений в языке РегІ доступна 
всегда. 

Ру*Ноп 

Чтобы получить возможность использовать функции регулярных выра¬ 
жений в языке РуіЬоп, необходимо в сценарии импортировать модуль ге. 

КиЬу 

Встроенная поддержка регулярных выражений в языке КиЬу доступна 
всегда. 

3.3. Создание объектов регулярных выражений 

Задача 

Необходимо создать объект регулярного выражения или как-то иначе 
скомпилировать регулярное выражение, чтобы его можно было эффек¬ 
тивно использовать в приложении. 

Решение 

с# 

Если известно, что регулярное выражение не содержит ошибок: 

Ведех гедехОЬ] = пем Ведех(”гедех раііегп")\ 

Если регулярное выражение предоставляется конечным пользователем 
(ввод пользователя сохранен в строковой переменной ІІзегІприІ:): 
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Тгу { 

Педех гедехОЬ] = пе\л/ Редех( ІІзегіприі; ); 

} саТсб (АгдитепТЕхсерТіоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

ѴВ.МЕТ 

Если известно, что регулярное выражение не содержит ошибок: 

Оіп ВедехОЬ] Аз №\л/ Ведех("гедех раИегп") 

Если регулярное выражение предоставляется конечным пользователем 
(ввод пользователя сохранен в строковой переменной бзегІприТ): 

Тгу 

Оіт ВедехОЬ] Аз №\л/ Ведех(изегІприТ) 

СаТсТ ех Аз АгдитепТЕхсерТіоп 

‘Синтаксическая ошибка в регулярном выражении 
Епб Тгу 

.Іаѵа 

Если известно, что регулярное выражение не содержит ошибок: 

РаТТегп гедех = РаТТегп. сотрі1е(" гедех ра1Тегп")\ 

Если регулярное выражение предоставляется конечным пользователем 
(ввод пользователя сохранен в строковой переменной изегІприТ): 

Тгу { 

РаТТегп гедех = РаТТегп. сотріІе(изегІприТ); 

} саТсб (РаТТегпЗупТахЕхсерТіоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

> 

Чтобы иметь возможность использовать регулярное выражение в виде 
строки, необходимо создать объект МаТсбег: 

МаТсТег гедехМаТсііег = гедех. таТсИег(зиб]есТЗТгіпд) ; 

Чтобы использовать регулярное выражение в виде другой строки, необ¬ 
ходимо создать новый объект МаТсНег, как только что было продемонст¬ 
рировано, или повторно использовать существующий объект: 

гедехМаТсТег. гезеТ(апоТИегЗиЬіесТЗТгіпд) ; 

.Іаѵа5сгірі 

Литерал регулярного выражения в программном коде: 

ѵаг тугедехр = /гедех ранет/-, 

Регулярное выражение, полученное от пользователя и хранящееся в пе¬ 
ременной изегіприТ: 

ѵаг тугедехр = пем ВедЕхр(изегіприТ); 
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ХКедЕхр 

Если в ^ѵаВсгірі; потребуется использовать расширенный синтаксис 
библиотеки ХКедЕхр, необходимо создать объект ХПедЕхр из строки: 

ѵаг пугедехр = ХРедЕхр("гедех раТТегп "); 

РегІ 

$тугедех = цг/гедех раііегп/ 

Регулярное выражение, полученное от пользователя и хранящееся в пе¬ 
ременной $изегіпри1і: 

$пугедех = д г/$изе гіприі:/ 

РуіЬоп 

геоЬ] = ге. сотрі1е("гедех раТТегп") 

Регулярное выражение, полученное от пользователя и хранящееся в пе¬ 
ременной изегіприі: 

геоЬ] = ге. сотрііе(изегіприіі) 

КиЬу 

Литерал регулярного выражения в программном коде: 

пугедехр = /гедех раі1:егп/\ 

Регулярное выражение, полученное от пользователя и хранящееся в пе¬ 
ременной изегіприі:: 

пугедехр = Кедехр. пеѵ/( изегіприі ); 

Обсуждение 

Прежде чем механизм регулярных выражений сможет выполнить сопо¬ 
ставление регулярного выражения со строкой, оно должно быть ском¬ 
пилировано. Компиляция выражения производится во время работы 
приложения. Конструктор объекта регулярного выражения или функ¬ 
ция, выполняющая компилирование, производит синтаксический ана¬ 
лиз строки, в которой хранится регулярное выражение, и преобразует 
ее в древовидную структуру или в конечный автомат. Функция, выпол¬ 
няющая фактическое сопоставление с шаблоном, выполняет обход это¬ 
го дерева или конечного автомата в процессе просмотра строки с испы¬ 
туемым текстом. В языках программирования, поддерживающих лите¬ 
ралы регулярных выражений, компиляция выражения производится, 
когда поток выполнения достигает оператора регулярного выражения. 

.МЕТ 

В языках С# и ѴВ.ЫЕТ скомпилированное регулярное выражение хра¬ 
нится в экземпляре класса Зузіет.Техі.ВедиІагЕхргеззіопз.Педех. Самый 
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простой конструктор принимает всего один параметр: строку с регу¬ 
лярным выражением. 

Если в регулярном выражении обнаруживаются синтаксические ошиб¬ 
ки, конструктор Недех() возбуждает исключение АгдитеШіЕхсерІіоп. Сооб¬ 
щение исключения точно укажет, какая ошибка произошла. Если регу¬ 
лярные выражения вводятся пользователем приложения, очень важно 
предусмотреть обработку этого исключения, в ходе которой можно от¬ 
образить текст исключения и предложить пользователю исправить 
ошибку. Когда регулярное выражение включено в текст программы 
в виде строкового литерала, можно опустить действия по обработке ис¬ 
ключения, если с помощью инструментальных средств анализа про¬ 
граммного кода было проверено, что при выполнении строка не возбуж¬ 
дает исключение. Совершенно невозможно изменить состояние или ре¬ 
жим так, чтобы один и тот же литерал регулярного выражения компи¬ 
лировался в одном состоянии и вызывал ошибку компиляции в другом. 
Обратите внимание, что в том случае если регулярное выражение со¬ 
держит синтаксическую ошибку, исключение будет возбуждено на эта¬ 
пе выполнения программы, а не на этапе ее компиляции. 

Если регулярное выражение предполагается использовать в цикле или 
многократно задействовать его в приложении, следует использовать 
объект Педех. Конструирование объекта регулярного выражения не соз¬ 
дает дополнительной нагрузки. Статические члены класса Педех, кото¬ 
рые принимают регулярное выражение в виде строкового параметра, 
в любом случае создают объект Педех, поэтому лучше сделать это в своем 
программном коде явно и потом хранить ссылку на созданный объект. 

Если планируется использовать регулярное выражение один-два раза, 
можно пользоваться статическими членами класса Педех, чтобы сэконо¬ 
мить несколько строк программного кода. Статические члены класса 
Педех не стирают объект регулярного выражения, созданный внутрен¬ 
ней реализацией, - они сохраняют в кэше 15 последних использовав¬ 
шихся регулярных выражений. Существует возможность изменить 
размер кэша, установив значение свойства Педех. СасІіеЗііе. Поиск в кэше 
организован как поиск строки регулярного выражения. Но не следует 
во всем полагаться на кэш. Если в программе часто требуется большое 
число регулярных выражений, предпочтительнее будет создать собст¬ 
венный кэш, в котором можно организовать более эффективный поиск, 
чем поиск строки. 

.Іаѵа 

В языке ^ѵа класс Раіііегп хранит одно скомпилированное регулярное 
выражение. Экземпляры этого класса можно создавать с помощью фаб¬ 
ричной функции класса РаІІегп.сотріІеО, которая принимает единст¬ 
венный параметр: строку с регулярным выражением. 

Если в регулярном выражении обнаружится синтаксическая ошибка, 
функция РаІІегп.сотріІеО возбудит исключение Ра1^егпЗуп1ахЕхсер1;іоп. 
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Сообщение исключения точно укажет, какая ошибка произошла. Если 
регулярные выражения вводятся пользователем приложения, очень 
важно предусмотреть обработку этого исключения, в ходе которой мож¬ 
но отобразить текст исключения и предложить пользователю испра¬ 
вить ошибку. Когда регулярное выражение включено в текст програм¬ 
мы в виде строкового литерала, можно опустить действия по обработке 
исключения, если с помощью инструментальных средств анализа про¬ 
граммного кода было проверено, что при выполнении строка не возбуж¬ 
дает исключение. Совершенно невозможно изменить состояние или ре¬ 
жим так, чтобы один и тот же литерал регулярного выражения компи¬ 
лировался в одном состоянии и вызывал ошибку компиляции в другом. 
Обратите внимание, что в случае если регулярное выражение содержит 
синтаксическую ошибку, исключение будет возбуждено на этапе вы¬ 
полнения программы, а не на этапе ее компиляции. 

Если регулярное выражение предполагается использовать многократ¬ 
но, следует создать объект Раііііегп вместо того, чтобы использовать ста¬ 
тические члены класса Зігіпд. Хотя для этого потребуется несколько до¬ 
полнительных строк программного кода, этот код будет работать гораз¬ 
до эффективнее. Статические члены выполняют рекомпиляцию каждо¬ 
го регулярного выражения при каждом обращении. В ^ѵа статические 
члены реализованы исключительно для решения простейших задач 
применения регулярных выражений. 

Объект Ра^іегп просто хранит скомпилированную версию регулярного 
выражения - он не выполняет никакой фактической работы. Собствен¬ 
но сопоставление регулярного выражения производится классом МаІісПег. 
Чтобы создать экземпляр класса Маісііег, необходимо вызвать метод 
паІсПегО объекта скомпилированного регулярного выражения. Метод 
таіісіпе г( ) принимает единственный аргумент - строку испытуемого 
текста. 

Метод таІсІіегО можно вызывать неограниченное число раз, чтобы при¬ 
менить одно и то же регулярное выражение к множеству строк. Можно 
работать с несколькими объектами, выполняющими сопоставление и ис¬ 
пользующими одно и то же регулярное выражение, при условии, что все 
они будут работать в одном потоке выполнения. Классы Раііііегп и МаісНег 
не предусматривают возможность выполнения в многопоточной среде. 
Если необходимо использовать одно и то же регулярное выражение 
в нескольких потоках выполнения, функция Ра11іегп.сотрі1е() должна 
вызываться в каждом таком потоке. 

Если регулярное выражение, примененное к одной строке, нужно при¬ 
менить к другой строке, чтобы повторно использовать объект МаІсИег, 
необходимо вызвать его метод гезеШ, передав ему следующую строку 
с испытуемым текстом. Такой подход более эффективен, чем создание 
нового объекта МаІісНег. Метод гезеіО возвращает тот же объект Маіісіпег, 
которому принадлежит метод, что позволяет производить повторную 
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инициализацию объекта и задействовать его в одной строке программ¬ 
ного кода, например гедехМаІсІіег.гезе^пехі:Зігіпд).ЕіпсІ(). 

іаѵаБсгірі 

Форма записи регулярных выражений, как показано в рецепте 3.2, уже 
создает новый объект регулярного выражения. Чтобы повторно исполь¬ 
зовать тот же самый объект, нужно просто присвоить его переменной. 

Если регулярное выражение хранится в строковой переменной (напри¬ 
мер, регулярное выражение, введенное пользователем), для его компи¬ 
ляции следует использовать конструктор КедЕхр(). Обратите внимание, 
что регулярное выражение внутри строки не окружается символами 
слэша. Эти слэши являются частью синтаксиса ЛѵаЕсгірі; записи объ¬ 
ектов НедЕхр в виде литералов, а вовсе не частью самого регулярного вы¬ 
ражения. 

Так как запись литерала регулярного выражения в переменную яв¬ 
ляется тривиальной операцией, в большинстве решений для ^ѵа- 
Зсгірі в этой главе эта строка кода опущена и напрямую использует¬ 
ся литерал регулярного выражения. Если предполагается много¬ 
кратно применять одно и то же регулярное выражение, его необхо¬ 
димо присвоить переменной и использовать эту переменную, вместо 
того чтобы много раз вставлять один и тот же литерал регулярного 
выражения. Это повысит производительность и упростит сопровож¬ 
дение программного кода. 

ХКедЕхр 

Если в сценарии на ^ѵайсгірі; потребуется использовать расширен¬ 
ный синтаксис регулярных выражений, предоставляемый библиоте¬ 
кой ХКе&Ехр, регулярные выражения следует компилировать вызовом 
конструктора ХВедЕхрО. Для большей эффективности - когда одно и то 
же регулярное выражение предполагается использовать многократно - 
результат компиляции следует присвоить переменной и передавать эту 
переменную методам класса ХНедЕхр, когда потребуется задействовать 
это регулярное выражение. 

В ситуациях, когда невозможно организовать хранение переменной 
с объектом ХНедЕхр, для компиляции регулярных выражений можно 
использовать метод ХРедЕхр. сасПе( ). Этот метод компилирует каждое ре¬ 
гулярное выражение только один раз. При последующих вызовах мето¬ 
да с теми же параметрами он возвращает один и тот же ранее скомпи¬ 
лированный экземпляр ХВедЕхр. 



Язык РНР не предоставляет возможность сохранять скомпилирован¬ 
ное регулярное выражение в переменной. Поэтому всякий раз когда воз¬ 
никает потребность выполнить какую-либо операцию с применением 
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регулярного выражения, функциям ргед придется передавать регуляр¬ 
ное выражение в виде строки. 

Функции семейства ргед хранят до 4096 скомпилированных регуляр¬ 
ных выражений в своем кэше. Несмотря на то что поиск в кэше выпол¬ 
няется на основе хешей, скорость поиска намного ниже, чем скорость 
обращения к переменной, однако производительность от этого падает 
не так сильно, как она могла бы упасть, если бы одно и то же регулярное 
выражение пришлось компилировать снова и снова. Когда кэш запол¬ 
няется, из него удаляется самое старое скомпилированное регулярное 
выражение. 

РегІ 

В языке РегІ имеется возможность с помощью оператора д г// скомпили¬ 
ровать регулярное выражение и присвоить его переменной. Этот опера¬ 
тор имеет тот же синтаксис, что и оператор сопоставления, описанный 
в рецепте 3.1, за исключением того, что он начинается не с символа т, 
а с символов д г. 

Вообще язык РегІ весьма эффективен в части многократного использо¬ 
вания ранее скомпилированных регулярных выражений. Поэтому мы 
не будем использовать оператор д г// во фрагментах программного кода 
в этой главе. Его применение будет продемонстрировано только в ре¬ 
цепте 3.5. 

Оператор д г// удобно использовать, когда необходимо интерпретировать 
переменные внутри регулярного выражения или когда само регулярное 
выражение является строкой (например, когда оно получено в результа¬ 
те ввода пользователем). При использовании дг/$гедехз1:гіпд/ имеется 
возможность управлять процессом повторной компиляции, чтобы отра¬ 
зить новое содержимое переменной $гедехз1:гіпд. Оператор т/$ гедехзігіпд/ 
выполняет повторную компиляцию регулярного выражения всякий 
раз, тогда как тДгедехзІгіпд/о никогда не будет компилировать его по¬ 
вторно. Значение модификатора /о объясняется в рецепте 3.4. 

РуіНоп 

В языке РуПюп в модуле ге имеется функция сотрі1е(), которая прини¬ 
мает строку с регулярным выражением и возвращает объект со скомпи¬ 
лированным регулярным выражением. 

Если то же самое регулярное выражение планируется использовать мно¬ 
гократно, необходимо явно вызвать функцию сотрі1е(). Все функции, 
имеющиеся в модуле ге, в самом начале вызывают функцию сотрі1е(), 
а затем вызывают требуемую функцию объекта скомпилированного ре¬ 
гулярного выражения. 

Функция сотрі1е() сохраняет ссылки на 100 последних скомпилиро¬ 
ванных регулярных выражений. Тем самым операция повторной ком¬ 
пиляции любого из 100 последних использовавшихся регулярных вы- 
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ражений замещается операцией поиска по словарю. Когда кэш запол¬ 
няется полностью, он очищается целиком. 

Если проблема производительности не стоит слишком остро, быстро¬ 
действия кэша будет вполне достаточно, чтобы напрямую использовать 
функции модуля ге. Но когда производительность имеет большое зна¬ 
чение, предпочтительнее применять функцию сошрі1е(). 

КиЬу 

Форма записи регулярных выражений, продемонстрированная в ре¬ 
цепте 3.2, уже создает новый объект регулярного выражения. Чтобы 
повторно использовать тот же самый объект, нужно просто присвоить 
его переменной. 

Если регулярное выражение хранится в строковой переменной (напри¬ 
мер, регулярное выражение, введенное пользователем), для его компи¬ 
ляции следует использовать фабричную функцию Недехр.пем() или ее 
синоним Недехр.сотрі1е(). Обратите внимание, что регулярное выраже¬ 
ние внутри строки не окружается символами слэша. Эти слэши явля¬ 
ются частью синтаксиса КиЬу записи объектов Ведехр в виде литералов, 
а вовсе не частью самого регулярного выражения. 


терал регулярного выражения. Если предполагается многократно 
применять одно и то же регулярное выражение, его необходимо при¬ 
своить переменной и использовать эту переменную, вместо того что¬ 
бы много раз вставлять один и тот же литерал регулярного выраже¬ 
ния. Это повысит производительность и упростит сопровождение 
программного кода. 
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Так как запись литерала регулярного выражения в переменную яв¬ 
ляется тривиальной операцией, в большинстве решений для КиЬу 
в этой главе эта строка кода опущена и напрямую используется ли¬ 


Компилирование регулярных 
выражений до уровня языка СИ 

С# 


Недех гедехОЬ] = пем Ред ех("гедех раНегп”, НедехОрІіопз.Сотрііесі) ; 

ѴВ.МЕТ 

Ріт РедехОЬ] Аз №\л/ Нед ех(”гедех раНегп", ВедехОрііопз.Сотрііесі) 

Обсуждение 

При создании объекта Недех на платформе .ЫЕТ без передачи дополни¬ 
тельных параметров регулярное выражение компилируется именно 
так, как описывалось в разделе «Обсуждение» выше в этом же рецеп¬ 
те. Если вторым параметром конструктору Недех() передать значение 
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ПедехОрІіопз.СотріІесІ, класс Недех выполнит нечто иное: он скомпилиру¬ 
ет регулярное выражение до уровня языка СІЬ, известного также как 
М8ІЬ. Название СІЬ происходит от «Соттоп Іпіегтесііаіе Ьап^иа^е» 
(общий промежуточный язык). Это низкоуровневый язык программи¬ 
рования, который гораздо ближе к языку ассемблера, чем к С# или Ѵі- 
зиаі Вазіс. Все компиляторы .ЫЕТ производят программный код на 
языке СІЬ. Когда приложение запускается первый раз, платформа .МЕТ 
Егатедѵогк компилирует программный код на языке СІЬ в машинные 
инструкции, подходящие для компьютера пользователя. 

Преимущество компилирования регулярных выражений с параметром 
ВедехОрІіопз.СотріІесІ заключается в том, что они могут выполняться до 
10 раз быстрее, чем регулярные выражения, скомпилированные без 
этого параметра. Недостаток такого подхода состоит в том, что компи¬ 
ляция может выполняться на два порядка медленнее, чем простое пре¬ 
образование строки с регулярным выражением в древовидную структу¬ 
ру. Кроме того, программный код на языке СІЬ становится постоянной 
частью приложения и сохраняется, пока приложение не завершит ра¬ 
боту. Программный код СІЬ не убирается сборщиком мусора. 

Параметр ЯедехОрЬіопз . Сотрііесі следует использовать, только если регу¬ 
лярное выражение слишком сложное или необходимо обрабатывать 
большие объемы текста, когда задержки, возникающие во время вы¬ 
полнения операции с регулярным выражением, становятся слишком 
заметными для пользователя. Дополнительные затраты на компиля¬ 
цию и сборку не имеют смысла, если регулярное выражение выполняет 
свою работу за доли секунды. 

См. также 

Рецепт 3.1, где разъясняется, как вставлять литералы регулярных вы¬ 
ражений в исходные тексты программ. 

Рецепт 3.2, где рассказывается, как импортировать библиотеки под¬ 
держки регулярных выражений в программах. В некоторых языках 
программирования необходимо выполнить этот шаг, чтобы получить 
возможность создавать объекты регулярных выражений. 

Рецепт 3.4, где описывается, как установить параметры регулярного 
выражения, которые в отдельных языках программирования реализо¬ 
ваны как часть литералов регулярных выражений. 

3.4. Установка параметров 
регулярных выражений 

Задача 

Необходимо скомпилировать регулярное выражение со всеми доступ¬ 
ными режимами сопоставления: «свободное форматирование», «нечув- 
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ствительность к регистру символов», «точке соответствуют границы 
строк» и «символам " и $ соответствуют границы строк». 

Решение 

с# 


Ведех гедехОЬ] = пеѵѵ Вед ех("гедех раііегп" , 

ВедехОрТіопз. ІдпогеРаТТегпМІ'ііТезрасе | ВедехОрТіопз. ІдпогеСазе | 
ВедехОрТіопз.8іпд1е1іпе | ВедехОрТіопз.МиІТіІіпе); 

ѴВ.№Т 

діт ВедехОЬ] Аз Ведех(” гедех раііегп", 

ВедехОрТіопз. ІдпогеРаТТегпІлІІ'йТезрасе Ог ВедехОрТіопз. ІдпогеСазе Ог 
ВедехОрТіопз.Зіпдіеііпе Ог ВедехОрТіопз.МиІТіІіпе) 


.Іаѵа 

РаТТегп гедех = РаТТегп.сотрі1е(" гедех раііегп", 

РаТТегп.СОММЕМТЗ | РаТТегп.САЗЕ_ІМ8ЕМЗІТІѴЕ | РаТТегп. 1ШС00Е_САЗЕ | 
РаТТегп. йОТАИ | РаТТегп. М1ЛТШМЕ) ; 

.ІаѵаБсгірІ 

Литерал регулярного выражения в программном коде: 

ѵаг тугедехр = /гедех раііегп/ іт ; 

Регулярное выражение, полученное от пользователя в виде строки: 

ѵаг тугедехр = пе\л/ ВедЕхр(изегіприТ, "іт”); 

ХКедЕхр 

ѵаг тугедехр = ХВедЕхрС гедех раііегп", "хізт"); 

РНР 

гедехзТгіпд = '/гедех раііегп/х ізт ’; 

РегІ 

т /гедех раііегп/х ізт; 

РуіЬоп 

геоЬ] = ге.сотріі е("гедех раііегп", 
ге. ѴЕВВОЗЕ | ге. ШОВЕСАЗЕ | 
ге.ООТАИ | ге. МІАТІИМЕ) 


КиЬу 

Литерал регулярного выражения в программном коде: 

тугедехр = /гедех раііегп/х іт; 
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Регулярное выражение, полученное от пользователя в виде строки: 

пугедехр = Редехр. пеѵ^изегіприі:, 

Редехр: :ЕХТЕШЕО ог Редехр: :ЮЫОРЕСАЗЕ ог 
Редехр: : МІЛТІШЕ) ; 

Обсуждение 

Многие регулярные выражения из тех, что приводятся в книге, и из 
тех, что встретятся вам на практике, написаны с учетом использования 
в определенном режиме. Почти все современные диалекты регулярных 
выражений поддерживают четыре основных режима. К сожалению, 
в некоторых диалектах параметры, реализующие те или иные режи¬ 
мы, имеют противоречивые или запутывающие названия. Использова¬ 
ние ошибочных режимов обычно отрицательно сказывается на работо¬ 
способности регулярного выражения. 

Во всех решениях в этом рецепте для установки режимов используются 
флаги или параметры, предоставляемые языком программирования 
или классом регулярных выражений. Другой способ установки режи¬ 
мов заключается в использовании модификаторов режимов внутри регу¬ 
лярного выражения. Модификаторы режимов внутри регулярного вы¬ 
ражения всегда имеют высший приоритет перед параметрами или фла¬ 
гами, которые устанавливаются за пределами регулярного выражения. 

.МЕТ 

Конструктор Недех() принимает второй необязательный аргумент с па¬ 
раметрами регулярного выражения. Доступные параметры можно уви¬ 
деть в перечислении ПедехОрІііопз. 

Свободное форматирование: ПедехОрІііопз.ІдпогеРаІіІіегпІлЖгЕезрасе 

Нечувствительность к регистру символов: ПедехОрІіопз.ІдпогеСазе 
Точке соответствуют границы строк: ПедехОрІіопз.ЗіпдІеІіпе 
Символам Л и $ соответствуют границы строк: ПедехОрІііопз. МиШПпе 


іаѵа 

Фабричная функция РаІІегп.сотріІеО принимает второй необязатель¬ 
ный аргумент с параметрами регулярного выражения. Класс Раііііегп 
определяет несколько констант для установки различных режимов. 
Имеется возможность одновременно установить несколько параметров, 
объединив их оператором «поразрядное ИЛИ» |. 

Свободное форматирование: РаИегп.СОММЕМТЗ 

Нечувствительность к регистру символов: Раііііегп . САЗЕ_ІМЗЕЫЗІТІѴЕ | 

РаИНегп.ІШССЮЕ.САЗЕ 

Точке соответствуют границы строк: РаИегп .ООТАИ 
Символам л и $ соответствуют границы строк: Раііііегп.МІЛТІИМЕ 
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Имеется два параметра, определяющие режим нечувствительности 
к регистру символов, и для обеспечения полной нечувствительности 
к регистру символов следует установить оба. Если установить только 
РаИегп. СА8Е_ІМЗЕМЗІТІѴЕ, сопоставление без учета регистра символов бу¬ 
дет производиться только для латинских символов от А до 2. Если уста¬ 
новить оба параметра, будут сопоставляться без учета регистра симво¬ 
лов все символы из всех алфавитов. Единственная причина отказаться 
от использования параметра РаТ1егп.1ШССЮЕ_САЗЕ заключается в стрем¬ 
лении обеспечить высокую производительность, если заранее известно, 
что испытуемый текст содержит только символы А8СІІ. При использо¬ 
вании модификаторов режима внутри регулярных выражений моди¬ 
фикатор <(?і)> включает режим нечувствительности к регистру только 
для символов А8СІІ, а модификатор <(?іи)> - режим полной нечувстви¬ 
тельности к регистру символов. 

.ІаѵаБсгірі 

Чтобы определить какие-либо параметры в языке ЛѵаЗсгірІ;, необходи¬ 
мо добавить один или более односимвольных флагов в литерал объекта 
НедЕхр после символа слэша, завершающего регулярное выражение. 
В документации эти флаги обычно записываются как /і и /т, хотя 
флаг - это собственно буква. Перед флагами не должно добавляться ни¬ 
каких дополнительных символов слэша. 

При использовании конструктора РедЕхрО для компиляции строки 
в объект регулярного выражения можно передать второй необязатель¬ 
ный аргумент с флагами регулярного выражения. Второй аргумент дол¬ 
жен быть строкой с символами параметров, которые требуется устано¬ 
вить. В этой строке не должно присутствовать никаких символов слэша. 

Свободное форматирование: не поддерживается в ^ѵаЗсгір! 

Нечувствительность к регистру символов: /і 

Точке соответствуют границы строк: не поддерживается в ЛѵаЗсгірІ; 
Символам Л и $ соответствуют границы строк: /т 

ХКедЕхр 

Библиотека ХКе^Ехр расширяет синтаксис регулярных выражений 
в ^ѵаЗсгірІ, добавляя поддержку свободного форматирования и совпа¬ 
дения точки с границами строк, которым соответствуют флаги "х" и ”з ”, 
часто используемые в других диалектах регулярных выражений. Эти 
флаги можно передать конструктору ХРедЕхрО в виде строки во втором 
параметре. 


Свободное форматирование: х 
Нечувствительность к регистру символов: "і" 
Точке соответствуют границы строк: з 
Символам Л и $ соответствуют границы строк: ”т" 
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РНР 

В рецепте 3.1 говорилось, что функции семейства ргед в языке РНР тре¬ 
буют, чтобы литерал регулярного выражения был заключен между 
двумя символами пунктуации, обычно символами слэша, и отформа¬ 
тирован как строковый литерал. Чтобы определить параметры регу¬ 
лярного выражения, нужно добавить в конец строки один или более од¬ 
носимвольных модификаторов. То есть символы модификаторов долж¬ 
ны следовать за разделителем, закрывающим регулярное выражение, 
но оставаться внутри строки в апострофах или в кавычках. В докумен¬ 
тации эти флаги обычно записываются как /х, хотя любой флаг - это 
соответствующий символ, а разделитель между регулярным выраже¬ 
нием и модификаторами необязательно должен быть символом слэша. 

Свободное форматирование: /х 
Нечувствительность к регистру символов: /і 
Точке соответствуют границы строк: /з 
Символам Л и $ соответствуют границы строк: /т 


РегІ 

Параметры регулярного выражения определяются добавлением одного 
или более односимвольных модификаторов в конец оператора сопостав¬ 
ления с шаблоном или подстановки. В документации эти флаги обычно 
записываются как /х, хотя любой флаг - это один символ, а раздели¬ 
тель между регулярным выражением и модификаторами необязатель¬ 
но должен быть символом слэша. 

Свободное форматирование: /х 
Нечувствительность к регистру символов: /і 
Точке соответствуют границы строк: /з 
Символам Л и $ соответствуют границы строк: /т 

РуіИоп 

Функция сотріІеО (описывается в предыдущем рецепте) принимает 
второй необязательный аргумент с параметрами регулярного выраже¬ 
ния. Этот аргумент необходимо собирать с помощью оператора |, чтобы 
объединить значения констант, определяемых в модуле ге. Многие дру¬ 
гие функции в модуле ге, которые принимают в качестве аргумента ли¬ 
терал регулярного выражения, также принимают параметры выраже¬ 
ния в виде последнего необязательного аргумента. 

Для каждого параметра регулярных выражений определена пара кон¬ 
стант. То есть каждый параметр может быть представлен константой 
с полным именем параметра или константой с именем из одного симво¬ 
ла. Значения констант внутри пары идентичны. Единственное отличие 
состоит в том, что использование полных имен делает программный 
код более удобочитаемым для других разработчиков, не знакомых с ал- 
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фавитом параметров регулярных выражений. Односимвольные имена 
констант параметров, перечисленные в этом разделе, соответствуют их 
аналогам в языке Регі. 

Свободное форматирование: ге.ѴЕНВОЗЕ или ге.Х 
Нечувствительность к регистру символов: ге.ІЗМОВЕСАЗЕ или ге.І 
Точке соответствуют границы строк: ге.ООТАИ или ге.З 
Символам Л и $ соответствуют границы строк: ге.МІЛТіиж или ге.М 

КиЬу 

Чтобы определить какие-либо параметры в языке КиЬу, необходимо до¬ 
бавить один или более односимвольных флагов в литерал объекта Недехр 
после символа слэша, завершающего регулярное выражение. В доку¬ 
ментации эти флаги обычно записываются как /і и /т, хотя любой 
флаг - это один символ. Перед флагами не должно добавляться ника¬ 
ких символов слэша. 

При использовании фабричной функции Недехр.пемО для компиляции 
строки в объект регулярного выражения можно передать второй необя¬ 
зательный аргумент с флагами регулярного выражения. Второй аргу¬ 
мент должен быть либо значением піі, чтобы отключить все параметры, 
либо комбинацией констант класса Ведехр, объединяемых оператором о г. 

Свободное форматирование: /г или Недехр::ЕХТЕИОЕО 
Нечувствительность к регистру символов: /і или Редехр::ЮИОНЕСАЗЕ 
Точке соответствуют границы строк: /т или Редехр::М1ЛТШЖ. В языке КиЬу 
действительно используются модификатор «т» и название «тиШ- 
Ііпе», тогда как в других диалектах для обозначения режима «точ¬ 
ке соответствуют границы строк» используется модификатор «з» 
или название «зіп^іеііпе». 

Символам А и $ соответствуют границы строк: символ крышки и знак доллара 
в языке КиЬу всегда совпадают с границами строк. Этот режим не¬ 
возможно отключить. Поэтому соответствие началу и концу строки 
с испытуемым текстом следует проверять с помощью метасимво¬ 
лов <\А> и <\2>. 

Дополнительные параметры, 
характерные для различных языков 

.ЫЕТ 

Параметр ВедехОрІііопз. ЕхрИсИСарІиге превращает все группы, за исклю¬ 
чением именованных, в несохраняющие. С этим параметром конструк¬ 
ция <(■■■)> становится эквивалентной конструкции <(?:■•■)>. Если сохра¬ 
няющие группы всегда оформляются как именованные, включение 
этого параметра обеспечит более высокую эффективность регулярного 
выражения без необходимости использовать синтаксическую конструк- 
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цию <(?:—)>. Вместо включения параметра РедехОрІіопз.ЕхрІісіІіСарІиге 
можно добавить в начало регулярного выражения модификатор режи¬ 
ма <(?п)>. Подробнее о группировке рассказывается в рецепте 2.9, а об 
именованных группах рассказывается в рецепте 2.11. 

Если регулярное выражение используется одновременно в .МЕТ и в Заѵа- 
Зсгірі; и необходимо добиться одинакового его поведения, можно вклю¬ 
чить параметр ПедехОрІііопз.ЕСМАЗсгір^. Этот параметр особенно удобен 
при разработке клиентской части веб-приложения на Заѵа8сгір1 и сер¬ 
верной на А8Р.ЫЕТ. Наиболее важный эффект параметра состоит в том, 
что метасимволы <\\л/> и <\сІ> ограничиваются набором символов А8СІІ, 
как в языке Заѵа8сгірІ. 

Іаѵа 

В языке Заѵа имеется уникальный параметр Ра1:1егп.САМ0М_Е0, который 
включает режим «канонической эквивалентности». Как уже говори¬ 
лось в разделе «Графема Юникода» (рецепт 2.7), Юникод обеспечивает 
различные способы представления символов с диакритическими зна¬ 
ками. При включении этого параметра регулярное выражение будет 
совпадать с символами, даже если в испытуемом тексте они имеют раз¬ 
личные представления. Например, регулярное выражение <\и00Е0> будет 
совпадать и с последовательностью "\и00Е0", и с последовательностью 
”\и0061\и0300”, потому что они канонически эквивалентны. Оба пред¬ 
ставления выводятся на экран как символ «а» и неразличимы для ко¬ 
нечного пользователя. При отключенном режиме канонической экви¬ 
валентности регулярное выражение <\и00Е0> не будет совпадать с после¬ 
довательностью ”\и0061\и0300". Именно такое поведение проявляют дру¬ 
гие диалекты регулярных выражений, рассматриваемые в книге. 

В Заѵа 7 можно установить параметр Ра11:егп.ІІМІС00Е_СНАР{АСТЕП_СЕАЗЗ, 
чтобы включить режим соответствия сокращенных форм записи сим¬ 
вольных классов символам Юникода. Подробнее об этом режиме рас¬ 
сказывается в разделе «Сокращения» в рецепте 2.3. 

Наконец, при включенном параметре Раѣ1:егп.ІШХ_ЕІМЕЗ только символ 
<\п> будет интерпретироваться как граница строки, а точка, крышка 
и знак доллара - нет. По умолчанию все символы разрыва строк в Юни¬ 
коде интерпретируются как символы границы строки. 

іаѵаБсгірІ 

Если необходимо повторно применять регулярное выражение к той же 
самой строке, то есть выполнить обход всех совпадений или отыскать 
и заменить все совпадения, а не только первое, следует указать флаг /д, 
или «&1оЪа1» (глобальный). 

ХКедЕхр 

При использовании библиотеки ХКе&Ехр следует установить флаг ”д ”, 
как и при использовании стандартного диалекта ЗаѵаЗсгірІ, если регу- 
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лярное выражение необходимо многократно применить к одной и той 
же строке. Кроме того, библиотека ХКе^Ехр добавляет флаг "п", превра¬ 
щающий все группы, кроме именованных, в несохраняющие. С этим 
флагом выражение <(■■■)> действует точно так же, как выражение <(?: ■■■)>. 
Если для сохранения вы всегда используете только именованные груп¬ 
пы, добавляйте этот флаг, чтобы сделать свои регулярные выражения 
более эффективными без применения синтаксиса <(?: ■)>• Подробнее 
о группировке рассказывается в рецепте 2.9. Именованные группы опи¬ 
сываются в рецепте 2.11. 

РНР 

Флаг /и предписывает библиотеке РСКЕ интерпретировать регулярное 
выражение и строку испытуемого текста как строки в кодировке ІІТЕ-8. 
Этот модификатор также позволяет использовать в регулярном выра¬ 
жении такие метасимволы Юникода, как <\х{РРРР}> и <\р{1_}>. Они по¬ 
дробно описаны в рецепте 2.7. Без этого модификатора РСКЕ интерпре¬ 
тирует каждый байт как отдельный символ, а метасимволы Юникода 
вызывают появление ошибки. 

Флаг /I) меняет поведение «максимальных» и «минимальных» кванти¬ 
фикаторов на противоположное, добавляя дополнительный знак во¬ 
проса. Обычно квантификатор <. *> является максимальным, а кванти¬ 
фикатор <.*?>— минимальным. При наличии флага /[) квантификатор 
<.*> становится минимальным, а квантификатор <.*?>- максимальным. 
Мы настоятельно рекомендуем никогда не использовать этот флаг, так 
как он будет сбивать с толку программистов, которым позднее придет¬ 
ся читать ваш программный код и которые пропустят дополнительный 
модификатор /[), уникальный для РНР. Кроме того, не путайте флаги /[) 
и /и, если они встретятся где-нибудь в программном коде. Модификато¬ 
ры режима чувствительны к регистру символов. 

РегІ 

Если необходимо повторно применять регулярное выражение к той же 
самой строке (например, выполнить обход всех совпадений или оты¬ 
скать и заменить все совпадения, а не только первое), следует указать 
флаг /д, или «^ІоЬаІ» (глобальный). 

Если в регулярном выражении имеется переменная, например т/І ат 
$пате/, РегІ будет компилировать регулярное выражение при каждом 
его использовании, потому что содержимое переменной $пате может из¬ 
мениться. Отменить это поведение можно с помощью модификатора /о. 
Выражение т/І ат $ пате/о будет компилироваться только при первом 
его применении, а при последующих будет задействована скомпилиро¬ 
ванная версия. Если содержимое переменной $пате изменится, это ни¬ 
как не отразится на регулярном выражении. Информация о том, как 
управлять повторной компиляцией регулярных выражений, приво¬ 
дится в рецепте 3.3. 
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Если в регулярном выражении используется сокращенная форма запи¬ 
си символьных классов или метасимволы границ слов, можно восполь¬ 
зоваться одним из флагов: /сі, /и, /а или /1, которые управляют соответ¬ 
ствием сокращенных форм записи классов и метасимволов границ слов 
только символам А8СІІ или символам Юникода, если их использова¬ 
ние предусмотрено текущими региональными настройками. Подроб¬ 
нее о применении этих флагов в Регі рассказывается в разделах «Вари¬ 
анты» рецептов 2.3 и 2.6. 

РуіНоп 

В языке РуЙюп имеются два дополнительных параметра, которые изме¬ 
няют значение метасимвола границы слова (рецепт 2.6) и сокращенных 
форм записи символьных классов <\м>, <\сІ> и <\з>, а также их инвертиро¬ 
ванные версии (рецепт 2.3). По умолчанию эти метасимволы обслужива¬ 
ют только алфавитные символы А8СП, цифры и пробельные символы. 

Параметр ге.І_0САІ_Е, или ге.І_, обеспечивает чувствительность этих ме¬ 
тасимволов к текущим региональным настройкам. Региональные на¬ 
стройки определяют, какие символы будут интерпретироваться этими 
метасимволами регулярных выражений как алфавитные символы, 
цифры и пробельные символы. Этот параметр необходимо использо¬ 
вать, когда испытуемый текст не является строкой Юникода и необхо¬ 
димо, чтобы также обрабатывались такие символы, как символы с ди¬ 
акритическими знаками. 

Параметр ге.ІШССШЕ, или ге.У, обеспечивает зависимость метасимволов 
от стандарта Юникод. Все символы, определяемые в Юникоде как бук¬ 
вы, цифры и пробельные символы, будут соответственно интерпрети¬ 
роваться этими метасимволами. Этот параметр необходимо использо¬ 
вать, когда испытуемый текст, к которому применяется регулярное вы¬ 
ражение, является строкой Юникода. 

КиЬу 

Фабричная функция Редехр.пе\л/() принимает необязательный третий 
аргумент, в котором указывается кодировка символов, поддерживае¬ 
мая регулярным выражением. Если не указывать кодировку, будет 
применяться та же кодировка, которая используется в исходном фай¬ 
ле. В большинстве случаев использование кодировки исходных файлов 
является правильным выбором. 

Чтобы выбрать кодировку явно, необходимо передать в этом аргументе 
единственный символ. Аргумент не чувствителен к регистру символов. 
Возможные значения приводятся ниже: 

п Происходит от слова «Ыопе» (нет). Каждый байт строки будет интер¬ 
претироваться как отдельный символ. Это значение следует исполь¬ 
зовать для текста в кодировке А8СП. 

е Активизирует кодировку «ЕІІС» для языков Дальнего Востока. 
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з Активизирует японскую кодировку «8ЫН-Л8». 

и Активизирует кодировку ЦТГ-8, в которой для представления одного 
символа может использоваться от одного до четырех байт и поддер¬ 
живаются все языки, поддерживаемые стандартом Юникод (в число 
которых входят все живые языки независимо от их значимости). 

При использовании литералов регулярных выражений кодировка мо¬ 
жет выбираться с помощью модификаторов /п, /е, /з и /и. В каждом от¬ 
дельном регулярном выражении может использоваться только один из 
этих модификаторов. Они могут использоваться в комбинации с любы¬ 
ми другими модификаторами /х, /і и /ш. 


Не путайте модификатор /з в языке КиЪу с похожим модификато¬ 
ром в языках Регі, Лѵа или .КЕТ. В КиЪу модификатор /з активизи¬ 
рует применение кодировки «8ЫД-Л8». В Регі и в большинстве дру¬ 
гих диалектов регулярных выражений он включает режим «точке 
соответствуют границы строки». В КиЪу этот режим включается 
с помощью флага /ш. 

См. также 

Эффекты, производимые режимами сопоставления, подробно описыва¬ 
ются в главе 2. Там же описывается порядок использования модифика¬ 
торов режима внутри регулярного выражения. 

Свободное форматирование: рецепт 2.18 

Нечувствительность к регистру символов: «Поиск без учета регистра симво¬ 
лов» в рецепте 2.1 

Точке соответствуют границы строк: рецепт 2.4 
Символам д и $ соответствуют границы строк: рецепт 2.5 

В рецептах 3.1 и 3.3 описывается порядок использования литералов ре¬ 
гулярных выражений в исходных текстах программ и создания объек¬ 
тов регулярных выражений. Параметры регулярных выражений уста¬ 
навливаются на этапе их создания. 

3.5. Проверка возможности совпадения 
в пределах испытуемой строки 

Задача 

Необходимо проверить, будет ли найдено совпадение с определенным 
регулярным выражением в определенной строке. Достаточно частично¬ 
го совпадения. Например, регулярному выражению <гедех*ра1:1:егп> со¬ 
ответствует часть строки ТНе гедех раііегп сап Ье -Гоипсі. По условиям 
задачи не требуется беспокоиться о каких-либо особенностях сопостав¬ 
ления. Достаточно просто узнать, имеется совпадение или нет. 
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Решение 

с# 

Для быстрых однократных проверок можно использовать статические 
функции: 

Ьооі ІоипРМаІсЬ = Ведех. ІзМаІісІп (зиЬз есІіЗі:гіпд , "гедех раТ1:егп")\ 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать статические функции с полноценной обработкой ис¬ 
ключений: 

Ьооі ІоипсІМаІсЬ = Іаізе; 

Игу { 

ІоипЬМаІісЬ = Ведех. ІзМаІісМ ( зиЬ^есІіЗІігіпд, ІІзегіприі:); 

} саІсЬ (АгдитепІМиІІЕхсерІііоп ех) { 

// Нельзя передавать значение пиіі в качестве регулярного выражения 
// или строки с испытуемым текстом 
} саІсЬ (АгдитетЕхсерИоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

Чтобы повторно использовать то же самое выражение, необходимо соз¬ 
дать объект Ведех: 

Ведех гедехОЬ] = пем Ведех ("гедех раііегп')\ 

Ьооі ІоипЬМаІісЬ = гедехОЬз. ІзМаІісІі (зиЬ^ есІЗІ: гіпд ) ; 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Ведех с полноценной обработкой исключений: 

Ьооі ЕоипсІМаІісЬ = Еаізе; 

Ігу { 

Ведех гедехОЬ] = пе\л/ Ведех(ЬзегІпри1:); 

*гу { 

ЕоипсІМаІісЬ = гедехОЬ]. ІзМаІісР(зиЬ^есІіЗі: гіпд); 

} саІсЬ (АгдитепІіМиІІЕхсерІііоп ех) { 

// Нельзя передавать значение пиіі в качестве регулярного выражения 
// или строки с испытуемым текстом 

} 

} саІсЬ (АгдитепІЕхсерНоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

ѴВ.ЫЕТ 

Для быстрых однократных проверок можно использовать статические 
функции: 

Оіт РоипсІМаІсЬ = Ведех. ІзМаІісІп (8иЬ^ есІіЗі:гіпд , "гедех раііегп”) 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать статические функции с полноценной обработкой ис¬ 
ключений: 
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Оіт РоипсІМаТсЬ Аз Вооіеап 
Тгу 

РоипсіМаТсЬ = Яедех. ІзМаІісО (ЗиЬ^ есІіЗі:гіпд , ІІзегІприТ) 

СаІсМ ех Аз АгдитепіИиПЕхсерТіоп 

'Нельзя передавать значение Иоііітіпд в качестве регулярного выражения 
'или строки с испытуемым текстом 
СаІсЬ ех Аз АгдитепіЕхсерііоп 

'Синтаксическая ошибка в регулярном выражении 
Епб Тгу 

Чтобы повторно использовать то же самое выражение, необходимо соз¬ 
дать объект Редех: 

Оіт РедехОЬ] Аз Ие\л/ Редех("гедех раІТегп") 

Оіт РоипсІМаісІі = РедехОЬ]. ІзМаІісІл (ЗиЬд есІЗі:гіпд ) 

Функции ІзМаісЬО обязательно должна передаваться строка ЗиЬіесі- 
31 гіпд в качестве единственного аргумента, и вызов должен произво¬ 
диться относительно экземпляра класса НедехОЬ], а не как статическая 
функция класса Редех: 

Оіт РоипбМаісЬ = РедехОЬ]. ІзМаіс1і(ЗиЬ]есіЗі:гіпд) 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Редех с полноценной обработкой исключений: 

Оіт РоипсІМаісЬ Аз Вооіеап 
Т гу 

Оіт ВедехОЬ] Аз Ведех(ІІзегІприі) 

Тгу 

РоипсІМаТсЬ = Редех. ІзМаІісІл(ЗиЬдесІіЗі:гіпд) 

СаісЬ ех Аз АгдитепТМиІІЕхсерііоп 

'Нельзя передавать значение МоіЬіпд в качестве регулярного выражения 
'или строки с испытуемым текстом 
Епсі Тгу 

СаісЬ ех Аз АгдитепіЕхсерііоп 

'Синтаксическая ошибка в регулярном выражении 
Епб Тгу 

}аѵа 

Единственный способ проверить частичное совпадение заключается 
в том, чтобы создать объект класса МаісЬег: 

РаТТегп гедех = РаіТегп.сотрі1е(" гедех раГТегл”); 

МаісЬег гедехМаісЬег = гедех. таТсНег(зиЬ]ес1;Зігіпд); 

Ьооіеап ТоипбМаісЬ = гедехМаісЬег. Тіпб(); 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет предусмотреть полноценную обработку исключений: 

Ьооіеап ТоипбМаТсЬ = Таізе; 
ігу { 

Раііегп гедех = РаТТегп. сотрііе(іізегіприі) ; 

МаісЬег гедехМаісЬег = гедех. таісЬег(зиЬ]ес1:Зі:гіпд) ; 
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ГоипсМаГсП = гедехМаІісОе г. ГіпсІ( ); 

} саісН (Раі:і:егпЗупІіахЕхсерІііоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

]аѵа5сгірі 

іГ (/гедех раііегп/ ЛезХ(зиЬіесХ)) { 

// Успешное совпадение 
} еізе { 

// Попытка сопоставления завершилась неудачей 

} 

РНР 

іГ (ргед_таісП( '/гедех раііегп/' , $зиЬ]ес1:)) { 

# Успешное совпадение 
} еізе { 

# Попытка сопоставления завершилась неудачей 

} 

РегІ 

Когда испытуемая строка хранится в специальной переменной $_: 

іГ (т /гедех раіТегп/) { 

# Успешное совпадение 
} еізе { 

# Попытка сопоставления завершилась неудачей 

} 

Когда испытуемая строка хранится в переменной ЗзиЦесГ: 

іГ ($зиЬзесі =" ш /гедех раХІегп/) { 

# Успешное совпадение 
} еізе { 

# Попытка сопоставления завершилась неудачей 

} 

При использовании регулярного выражения, скомпилированного ранее: 

$гедех = цг/ гедех раТТегп /; 
іГ ($зиЬ]есГ =~ $гедех) { 

# Успешное совпадение 
} еізе { 

и Попытка сопоставления завершилась неудачей 

} 

РуіНоп 

Для быстрой однократной проверки можно использовать глобальную 
функцию: 

іГ ге. зеа гсП ("гедех раііе гп", зиЬ]есі): 

# Успешное совпадение 
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еізе: 

# Попытка сопоставления завершилась неудачей 

Чтобы повторно использовать то же регулярное выражение, следует ис¬ 
пользовать объект скомпилированного регулярного выражения: 

геоЬ] = ге. сотрі1е ( "гедех раТіегп ") 
іі геоЬ]. зеагсІі(зиЬ]ес1:) : 

# Успешное совпадение 
еізе: 

# Попытка сопоставления завершилась неудачей 


КиЬу 

іТ зиЬ^ес! =~ /гедех раТТегп/ 

# Успешное совпадение 

еізе 

# Попытка сопоставления завершилась неудачей 
епсі 

Следующий фрагмент делает то же самое: 

іТ /гедех раііегп/ зиЬ]есі: 

# Успешное совпадение 

еізе 

# Попытка сопоставления завершилась неудачей 
епсі 

Обсуждение 

Наиболее часто регулярные выражения используются для проверки со¬ 
ответствия строки регулярному выражению. В большинстве языков 
программирования совпадения регулярного выражения хотя бы с ча¬ 
стью строки достаточно, чтобы функция сопоставления вернула истин¬ 
ное значение. Функция сопоставления просматривает всю строку с ис¬ 
пытуемым текстом, чтобы определить, совпадает ли регулярное выра¬ 
жение с какой-либо ее частью. Функция возвращает истинное значение, 
как только будет найдено первое совпадение. Ложное значение возвра¬ 
щается, когда был достигнут конец строки и при этом не было найдено 
ни одного совпадения. 

Примеры программного кода в этом рецепте могут использоваться для 
проверки наличия в строке некоторых данных. Если требуется прове¬ 
рить, соответствует ли вся строка определенному шаблону (например, 
с целью проверки ввода пользователя), следует использовать следую¬ 
щий рецепт. 

С# и ѴВ.МЕТ 

Класс Недех предоставляет нам четыре перегруженных версии метода 
ІзМаІсііО, два из которых являются статическими. Это позволяет вызы¬ 
вать метод І$Ма1:с1і() с различными аргументами. Испытуемая строка 




184 


Глава 3. Программирование с применением регулярных выражений 


всегда передается в первом параметре. Это та самая строка, в которой 
регулярное выражение будет пытаться отыскать совпадение. Первый 
аргумент не может иметь значение пиіі. В противном случае метод 
ІзМаГсііО возбудит исключение АгдитегЦИиІІЕхсерІііоп. 

Проверку можно выполнить одной строкой программного кода, вызвав 
статический метод Редех.ІзМа^сІіО, без создания объекта Редех. В этом 
случае регулярное выражение передается во втором аргументе, а пара¬ 
метры регулярного выражения - в необязательном третьем аргументе. 
Если регулярное выражение содержит синтаксическую ошибку, метод 
ІаМаГсНО возбудит исключение АгдитепііЕхсерІіоп. Если регулярное выра¬ 
жение не содержит ошибок, метод вернет значение Ігие в случае, когда 
в строке имеется совпадение, и Гаізе - если совпадение не было найдено. 

Если одно и то же регулярное выражение требуется применить для 
проверки множества строк, можно повысить производительность про¬ 
граммного кода, предварительно создав объект йедех и вызывая метод 
ІзМаІсК) этого объекта. Этот метод принимает единственный обяза¬ 
тельный аргумент - испытуемую строку. Во втором необязательном ар¬ 
гументе можно указать позицию символа, начиная с которого следует 
выполнять поиск. Фактически число, указываемое во втором аргумен¬ 
те, - это количество символов от начала испытуемой строки, которые 
должны игнорироваться регулярным выражением. Это может быть 
удобно, когда часть строки уже была проверена и необходимо выпол¬ 
нить проверку в оставшейся части строки. Указываемое число должно 
быть больше или равно нулю и меньше или равно длине строки. В про¬ 
тивном случае метод ІзМаісИО возбудит исключение АгдитепІіОиІіОЕВап- 
деЕхсерІіоп. 

іаѵа 

Чтобы проверить наличие совпадения регулярного выражения с полной 
строкой или с ее частью, необходимо создать объект Маісііег, как описы¬ 
вается в рецепте 3.3. После этого можно вызвать метод 1 = іпсІ( ) вновь соз¬ 
данного или повторно инициализированного объекта МаІсИег. 

Методы Зіігіпд.таІісІіезО, Ра^Іегп.таІісИезО или МаІісПег.таІсІіезО непри¬ 
годны для решения поставленной здесь задачи, так как требуют, чтобы 
регулярное выражение совпадало с полной строкой. 

іаѵаЗсгірі 

Чтобы проверить наличие совпадения регулярного выражения с ча¬ 
стью строки, необходимо вызвать метод 1ез1:() регулярного выражения. 
Испытуемая строка передается этому методу в виде единственного ар¬ 
гумента. 

Метод гедехрЛезШ возвращает Ігие, если регулярному выражению со¬ 
ответствует вся испытуемая строка или ее часть, и ^аізе - в противном 
случае. 




3.5. Проверка возможности совпадения в пределах испытуемой строки 
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РНР 

Функция ргед_таІсІі() может использоваться для разных целей. В про¬ 
стейшем случае ей передаются всего два обязательных аргумента: стро¬ 
ка с регулярным выражением и строка с испытуемым текстом, кото¬ 
рый необходимо проверить с помощью регулярного выражения. Если 
совпадение было найдено, функция ргед_таісІі() вернет значение 1; если 
в испытуемом тексте не было обнаружено ни одного совпадения, она 
вернет значение 0. 

Необязательные аргументы, которые могут передаваться функции 
ргед_таі:сЮ, описываются в последующих рецептах. 

РегІ 

В языке РегІ синтаксическая конструкция гл// фактически является не 
просто контейнером для хранения регулярного выражения, а операто¬ 
ром регулярного выражения. При использовании оператора т// самого 
по себе в качестве испытуемого текста используется содержимое пере¬ 
менной $_. 

Если необходимо применить оператор сопоставления т// к содержимо¬ 
му другой переменной, следует использовать оператор связывания =“, 
который свяжет оператор регулярного выражения с указанной перемен¬ 
ной. Оператор сопоставления с шаблоном вернет значение ^гие, если ре¬ 
гулярному выражению соответствует часть испытуемой строки, и Раізе - 
если ни одного совпадения не было найдено. 

Если необходимо убедиться в отсутствии совпадений с регулярным вы¬ 
ражением в строке, можно использовать оператор ! ~, который является 
инвертированной версией оператора =~. 

РуіНоп 

В модуле ге имеется функция зеагсІі(), которая выполняет поиск совпа¬ 
дений частей строки с регулярным выражением. Регулярное выраже¬ 
ние передается функции в первом аргументе, а испытуемая строка - во 
втором. Параметры регулярного выражения можно передать в третьем 
необязательном аргументе. 

Функция ге.зеагсПО вызывает функцию ге.сотрі1е() и затем вызывает 
метод зеагсІі() объекта скомпилированного регулярного выражения. 
Этот метод принимает единственный аргумент - испытуемую строку. 

Если регулярное выражение обнаружит совпадение, функция зеагс!і() 
вернет экземпляр класса МаІісІпОЬд есѣ. Если совпадение не будет найдено, 
функция зеагс1п() вернет значение Иопе. При использовании возвращае¬ 
мого значения в условном операторе ІР объект МаІісІпОЬд есі: оценивается 
как значение Тгие, а значение Иопе оценивается как Раізе. В последую¬ 
щих рецептах этой главы демонстрируется, как использовать информа¬ 
цию, хранящуюся в объекте МаісН0Ь]ес1:. 
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Не следует путать функции зеагсМО и таіісіі (). Функция таіісіп () не 
может использоваться для поиска совпадения в середине строки. 
Функция таІісИ () используется в следующем рецепте. 


КиЬу 

Оператор =~ - это оператор сопоставления с шаблоном. Чтобы отыскать 
в строке первое совпадение с регулярным выражением, необходимо по¬ 
местить его между регулярным выражением и строкой. Оператор воз¬ 
вращает номер позиции найденного совпадения. Если совпадение не 
будет обнаружено, оператор вернет значение піі. 

Этот оператор реализован в обоих классах, Кедехр и Зігіпд. В версии Ки¬ 
Ьу 1.8 не имеет никакого значения, экземпляр какого класса будет рас¬ 
полагаться слева или справа от оператора. В версии КиЬу 1.9 с этим свя¬ 
зан побочный эффект, имеющий отношение к именованным сохраняю¬ 
щим группам. Подробнее об этом рассказывается в рецепте 3.9. 

Во всех других фрагментах программного кода на языке КиЬу в этой 
книге мы будем помещать испытуемую строку слева от оператора =“, 
а регулярное выражение - справа. Это соответствует синтаксису 
языка Регі, из которого КиЬу заимствовал оператор =“, и позволяет 
обойти особенности версии КиЬу 1.9, связанные с именованными со¬ 
храняющими группами, которые для многих могут оказаться не¬ 
ожиданными. 


Рецепт 3.6, где демонстрируется код, проверяющий совпадение регу¬ 
лярного выражения со всей испытуемой строкой. 

Рецепт 3.7, где показано, как получить фрагмент, фактически совпав¬ 
ший с регулярным выражением. 

3.6. Проверка совпадения 
со всей испытуемой строкой 

Задача 

Необходимо проверить, соответствует ли строка целиком некоторому 
регулярному выражению. То есть необходимо убедиться, что регуляр¬ 
ное выражение содержит шаблон, которому соответствует строка цели¬ 
ком, от начала до конца. Например, допустим, что имеется регулярное 
выражение <гедех«ра11егп>, которое будет совпадать со входным текстом, 
состоящим из строки гедех раііегп, но не с более длинной строкой ТИе 
гедех раИегп сап Ье -Роипсі. 
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Решение 

с# 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

Ьооі 1^оипс1Ма1;сО = Недех. ІзМа1:сІп (зиЬ^ес1:31: гіпд , @"\А гедех раі1:егп\Т')\ 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее создать объект Ведех: 

Ведех гедехОЬ] = пем Ведех(@"\А гедех раі1:егп\Г '); 

Ьооі РоипсІМаРсЬ = гедехОЬд. ІзМаІісО (зиЬд есІіЗІ:гіпд ); 

ѴВ.МЕТ 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

Оіт РоипсІМаРсЬ = Ведех. ІзМа1;сО(ЗиЬдесІіЗі:гіпд, "\А гедех раі1:егп\Т’) 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее создать объект Ведех: 

Оіт ВедехОЬ] Аз Ведех("\А гедех раІТегпХІ") 

Оіт РоипсІМаІісЬ = ВедехОЬ;]. ІзМаРсЬ(ЗиЬ;іесРЗРгіпд) 

Функции ІзМа1:сЬ() обязательно должна передаваться строка ЗиЬ]есР- 
51: гіпд в качестве единственного аргумента, и вызов должен произво¬ 
диться относительно экземпляра класса ВедехОЬ], а не как статическая 
функция класса Ведех: 

Оіт РоипсІМаІісЬ = ВедехОЬд. ІзМаІісЬ (ЗиЬд есІіЗІігіпд ) 

.Іаѵа 

Для однократной проверки можно использовать статическую функцию: 

Ьооіеап РоипсІМаІісЬ = зиЬ]есРЗРгіпд.таісЬез("гедех раРРе/тГ); 

В случае многократного использования того же самого регулярного 
выражения предпочтительнее скомпилировать регулярное выражение 
и создать объект совпадения: 

РаРРегп гедех = РаРРегп. сотрі1е(” гедех раіТегп"): 

МаРсЬег гедехМаРсЬег = гедех.таІісЬег(зиЬдесІіЗіігіпд); 

Ьооіеап РоипсІМаІісЬ = гедехМаРсЬег.таРсЬез(зиЬ]есРЗРгіпд); 

.ІаѵаБсгірг 

ІР (/"гедех раІ1:егп$/. РезР(зиЬ]есР)) { 

// Успешное совпадение 
} еізе { 

// Попытка сопоставления завершилась неудачей 

} 
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РНР 


іі (ргед_таІсП( ' ДА гедех раііегп\1/' , $зиЬ]ес1:)) { 

# Успешное совпадение 
} еізе { 

# Попытка сопоставления завершилась неудачей 

} 

РегІ 

іі ($зиЬ]ес1: =~ т/\А гедех раТ1:егп\2/) { 

# Успешное совпадение 
} еізе { 

# Попытка сопоставления завершилась неудачей 

} 

РуІІІОП 

Для быстрой однократной проверки можно использовать глобальную 
функцию: 

іЕ ге.та1сП(г "гедех раТ1:егп\Г’, зиЬ]ес1і): 

# Успешное совпадение 
еізе: 

# Попытка сопоставления завершилась неудачей 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее использовать объект скомпилированного 
регулярного выражения: 

геоЬ] = ге. сотрі1е( г "гедех ра1:Тегп\Г') 
іЕ геоЬ]. таіісіп (зиЬз есі: ): 

# Успешное совпадение 
еізе: 

# Попытка сопоставления завершилась неудачей 


КиЬу 

і-р зиЬз есі: =” ДА гедех раіІегп\1/ 

# Успешное совпадение 

еізе 

# Попытка сопоставления завершилась неудачей 
ЕпсІ 

Обсуждение 

Обычно успех сопоставления с регулярным выражением говорит о том, 
что где-то внутри испытуемого текста имеется совпадение с шаблоном. 
Во многих ситуациях бывает необходимо убедиться, что регулярному 
выражению соответствует не какая-то часть, а весь испытуемый текст 
целиком. Пожалуй, наиболее типичная ситуация, когда необходимо 
выяснить, совпадает ли текст целиком, - это проверка ввода. Если поль¬ 
зователь вводит номер телефона или ІР-адрес и включает посторонние 
символы, необходимо отклонить его ввод. 
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Решения, где используются якорные метасимволы <$> и <Ѵ>, также мо¬ 
гут применяться при построчной обработке файлов (рецепт 3.21), когда 
используемый механизм извлечения строк оставляет символы завер¬ 
шения строки в конце строки. Как описывается в рецепте 2.5, эти якор¬ 
ные метасимволы также совпадают с последним символом завершения 
строки, фактически позволяя игнорировать его. 

В последующих подразделах подробно описываются решения для раз¬ 
личных языков программирования. 

С#и ѴВ.МЕТ 

Класс Редех в платформе .ЫЕТ Егателѵогк не имеет функции, позволяю¬ 
щей убедиться, что строка целиком соответствует регулярному выра¬ 
жению. Решение заключается в том, чтобы в начало регулярного выра¬ 
жения добавить якорный метасимвол <\А>, совпадающий с началом 
строки, а в конец выражения - якорный метасимвол <Ѵ>, совпадающий 
с концом строки. Благодаря этому строка может совпадать с регуляр¬ 
ным выражением только целиком, в противном случае совпадения во¬ 
обще не будет. Если в регулярном выражении используется конструк¬ 
ция выбора, такая как <опе|іѵ\/о|іНгее>, ее необходимо заключить в груп¬ 
пу перед добавлением якорных метасимволов: <\А(?:опе|і\л/о|1:І'ігее)Ѵ>. 

После внесения исправлений в регулярное выражение, которые обе¬ 
спечат совпадение только с целой строкой, можно использовать метод 
ІзМаісІіО, который был описан в предыдущем рецепте. 

}аѵа 

В языке ^ѵа имеются три метода с именем таіс(іез(). Все они проверя¬ 
ют, совпадает ли регулярное выражение со строкой целиком. Эти мето¬ 
ды обеспечивают быстрый способ проверки ввода без заключения регу¬ 
лярного выражения в якорные метасимволы, совпадающие с началом 
и с концом строки. 

Метод таісІіезО класса Зігіпд принимает регулярное выражение в виде 
единственного аргумента. Он возвращает значение ігие или іаізе как 
признак того, совпадает ли регулярное выражение со всей строкой це¬ 
ликом. Метод таісНезО класса Раііегп принимает две строки: первая- 
это регулярное выражение, а вторая - испытуемая строка. В качестве 
испытуемой строки методу Раііііегп .та1:с1пез() в действительности можно 
передавать любой объект типа СІіагЗедиепсе. Это единственная причина 
отказа от использования Зіігіпд . та1:сІпез( ) в пользу Раііет.таІісвезО. 

Оба метода, Зіігіпд.таісІіезО и РаіІіегп.таІісІіезО, при каждом обращении 
производят компиляцию регулярного выражения, вызывая Раііегп. 
сотрі1е(”гедех").та1:с1іег(зиЬ]ес1:Зі:гіпд).таісііез(). Так как регулярное вы¬ 
ражение компилируется каждый раз, эти методы желательно приме¬ 
нять только при однократном использовании регулярного выражения 
(например, для проверки одного поля ввода в форме) или когда не требу¬ 
ется высокая производительность. Эти методы не предоставляют воз- 
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можность указывать параметры сопоставления за пределами регуляр¬ 
ного выражения. Если регулярное выражение содержит синтаксиче¬ 
скую ошибку, возбуждается исключение РаІіІегпЗупІіахЕхсерІііоп. 

В случае многократного использования одного и того же регулярного вы¬ 
ражения для повышения эффективности необходимо скомпилировать 
его и создать объект Маіхііег, как описывается в рецепте 3.3. После этого 
можно будет вызывать метод па1:сІіез() созданного экземпляра класса 
Маіісіпе г. Этот метод не принимает никаких аргументов, потому что ис¬ 
пытуемая строка указывается при создании объекта сопоставления. 

іаѵаБсгірі 

В языке ЗаѵаВсгірѣ отсутствует функция, позволяющая убедиться, что 
строка целиком соответствует регулярному выражению. Решение за¬ 
ключается в том, чтобы в начало регулярного выражения добавить якор¬ 
ный метасимвол Г>, а в конец выражения — якорный метасимвол <$>. 
При этом не следует устанавливать флаг /т регулярного выражения. 
Только в отсутствие флага /ш символ крышки и знак доллара будут сов¬ 
падать исключительно с началом и с концом испытуемой строки. При 
установленном флаге /т они также будут совпадать с границами строк 
в середине испытуемого текста. 

После добавления якорных метасимволов в регулярное выражение его 
можно использовать с методом гедехр.1ез1(), описанным в предыдущем 
рецепте. 


В языке РНР отсутствует функция, позволяющая убедиться, что стро¬ 
ка целиком соответствует регулярному выражению. Решение заключа¬ 
ется в том, чтобы в начало регулярного выражения добавить якорный 
метасимвол <\А>, совпадающий с началом строки, а в конец выраже¬ 
ния - якорный метасимвол <\2>, совпадающий с концом строки. Благо¬ 
даря этому строка может совпадать с регулярным выражением только 
целиком, в противном случае совпадения вообще не будет. Если в ре¬ 
гулярном выражении используется конструкция выбора, такая как 
<опе|1\л/о|і:Іігее>, ее необходимо заключить в группу перед добавлением 
якорных метасимволов: <\А(?:опе|1:\л/о|1:іігее)Ѵ>. 

После внесения исправлений в регулярное выражение, которые обеспе¬ 
чат совпадение только с целой строкой, можно использовать функцию 
ргед_та^сІі(), описанную в предыдущем рецепте. 

РегІ 

В языке РегІ имеется всего один оператор сопоставления с шаблоном, 
который удовлетворяется совпадением с частью строки. Если необходи¬ 
мо проверить, соответствует ли регулярному выражению вся строка це¬ 
ликом, нужно в начало регулярного выражения добавить якорный ме- 
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тасимвол <\А>, совпадающий с началом строки, а в конец выражения - 
якорный метасимвол <Ѵ>, совпадающий с концом строки. Благодаря 
этому строка может совпадать с регулярным выражением только цели¬ 
ком, в противном случае совпадения вообще не будет. Если в регулярном 
выражении используется конструкция выбора, такая как <опе 11:\л/о 1 1:1і гее>, 
ее необходимо заключить в группу перед добавлением якорных мета¬ 
символов: <\А(?:опе|1:\л/о|Ііігее)Ѵ>. 

После внесения исправлений в регулярное выражение, которые обеспе¬ 
чат совпадение только с целой строкой, его можно использовать, как 
описано в предыдущем рецепте. 

РуіЬоп 

Функция та1с1і( ) очень схожа с функцией зеагс(і(), описанной в предыду¬ 
щем рецепте. Основное отличие состоит в том, что функция таІсІіО тре¬ 
бует, чтобы регулярное выражение совпадало исключительно с начала 
испытуемой строки. Если регулярное выражение не совпадает с нача¬ 
лом строки, функция таІсІі() тут же возвращает значение Иопе. Функция 
зеагсІі(), в свою очередь, будет пытаться отыскать совпадение с регуляр¬ 
ным выражением в каждой последующей позиции в строке, пока либо 
не обнаружит совпадение, либо не достигнет конца испытуемой строки. 

Функция таІсІіО не требует, чтобы вся строка целиком соответствовала 
регулярному выражению. Она допускает совпадение с частью строки 
при условии, что это совпадение начинается в начале строки. Если необ¬ 
ходимо проверить, соответствует ли регулярному выражению вся стро¬ 
ка целиком, нужно в конец выражения добавить якорный метасимвол 
<Ѵ>, совпадающий с концом строки. 

КиЬу 

Класс Ведех в языке КиЪу не имеет функции, позволяющей убедиться, 
что строка целиком соответствует регулярному выражению. Для реше¬ 
ния поставленной задачи необходимо в начало регулярного выражения 
добавить якорный метасимвол <\А>, совпадающий с началом строки, 
а в конец выражения - якорный метасимвол <Ѵ>, совпадающий с кон¬ 
цом строки. Благодаря этому строка может совпадать с регулярным вы¬ 
ражением только целиком, в противном случае совпадения вообще не 
будет. Если в регулярном выражении используется конструкция выбо¬ 
ра, такая как <опе|1:\л/о|1:1ігее>, ее необходимо заключить в группу перед 
добавлением якорных метасимволов: <\А(?:опе|1;мо|1:1ігее)Ѵ>. 

После внесения исправлений в регулярное выражение, которые обеспе¬ 
чат совпадение только с целой строкой, можно использовать оператор 
=~, описанный в предыдущем рецепте. 
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См. также 

Рецепт 2.5, подробно рассказывающий о том, как работают якорные 
метасимволы. 

Рецепты 2.8 и 2.9, где описываются оператор выбора и группировка. Ес¬ 
ли регулярное выражение использует конструкцию выбора за предела¬ 
ми какой-либо группы, ее необходимо заключить в группу перед добав¬ 
лением якорных метасимволов. Если регулярное выражение не исполь¬ 
зует конструкцию выбора или использует ее только в пределах групп, 
для обеспечения корректной работы якорей дополнительная группи¬ 
ровка не требуется. 

Рецепт 3.7 может пригодиться, если допустимо совпадение с регуляр¬ 
ным выражением части строки. 

3.7. Извлечение текста совпадения 

Задача 

Имеется регулярное выражение, совпадающее с частью испытуемого 
текста. Необходимо извлечь совпавшие фрагменты текста. Если для ре¬ 
гулярного выражения в строке имеется более одного совпадения, необ¬ 
ходимо извлечь только первое из них. Например, в результате примене¬ 
ния регулярного выражения <\сІ+> к строке до уои Пке 13 ог 42? должно 
быть извлечено совпадение 13. 

Решение 

С# 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

зігіпд гезиШіігіпд = Ведех. Маіісіі (зиЬз есІіЗІ:гіпд , @"\сі+”) . Ѵаіие; 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать статические функции с полноценной обработкой ис¬ 
ключений: 

зіігіпд гезиІІЗІгіпд = пиіі; 

Игу { 

гезиІІЗІ:гіпд = Ведех.Маіісіп(зиЬдесІіЗі:гіпд, @”\сІ+”) .Ѵаіие; 

} саІісИ (АгдитепІМиІІЕхсерІііоп ех) { 

// Нельзя передавать значение пиіі в качестве регулярного выражения 
// или строки с испытуемым текстом 
} саІсН (АгдитетЕхсерИоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

Чтобы повторно использовать то же самое выражение, необходимо соз¬ 
дать объект Ведех: 
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Редех гедехОЬ] = пем Ведех(@"\сІ+" ); 

зігіпд гезиІіЗТгіпд = гедехОЬ]. Маіісіп (зиЬд есІіЗІ;гіпд ). Ѵаіие; 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Редех с полноценной обработкой исключений: 

зігіпд гезиІіЗігіпд = пиіі; 
ігу { 

Редех гедехОЬз = пем Редех(@"\сІ+" ); 

1: су { 

гезиІіЗігіпд = гедехОЬ]. МаісІ'КзиЬ^есіЗігіпд) . Ѵаіие; 

} саісН (АгдитепіМиІІЕхсерііоп ех) { 

// Нельзя передавать значение пиіі в качестве 
// строки с испытуемым текстом 

} 

} саТсН (АгдитепіЕхсерііоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

ѴВ.МЕТ 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

Оіт РезиІіЗігіпд = Редех. Маіісіз (ЗиЬд есІіЗі:гіпд , "\сІ+” ). Ѵаіие 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать статические функции с полноценной обработкой ис¬ 
ключений: 

Оіт РезиІіЗігіпд Аз 31: гіпд = ИоШпд 
Тгу 

РезиІіЗігіпд = Редех. МаІісП (ЗиЬд есІіЗі:гіпд, "\сІ+").Ѵаіие 
СаісН ех Аз АгдитепіМиІІЕхсерііоп 

'Нельзя передавать значение Моібіпд в качестве регулярного выражения 
'или строки с испытуемым текстом 
СаісН ех Аз АгдитепіЕхсерііоп 

'Синтаксическая ошибка в регулярном выражении 
Епб Тгу 

Чтобы повторно использовать то же самое выражение, необходимо соз¬ 
дать объект Редех: 

Оіт РедехОЬ] Аз Ием Редех(''\сІ+") 

Оіт РезиІіЗігіпд = РедехОЬ]. МаісІ'КЗибзесіЗігіпд) . Ѵаіие 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Редех с полноценной обработкой исключений: 

Оіт РезиІіЗігіпд Аз 81: гіпд = ИоіНіпд 
Тгу 

Оіт РедехОЬ] Аз №ѵ\/ Редех("\б+") 

Тгу 

РезиІіЗігіпд = РедехОЬ;]. МаісН(5иЬ]есі5ігіпд) . Ѵаіие 
СаісН ех Аз АгдитепіМиІІЕхсерііоп 
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'Нельзя передавать значение ЫоІіОіпд в качестве 
'строки с испытуемым текстом 
ЕпР Тгу 

СаЕсН ех Аз АгдитепЕЕхсерЕіоп 

'Синтаксическая ошибка в регулярном выражении 
ЕпР Тгу 

іаѵа 

Чтобы отыскать и сохранить совпадение, необходимо создать объект 

МаЕс Гіег: 

ЗЕгіпд гезиІЕЗЕгіпд = пиіі; 

РаЕЕегп гедех = РаЕЕегп. сотрі1е("\\сі+"); 

МаЕсНег гедехМаЕсНег = гедех.таЕсНег(зиЬ]есЕ5Егіпд); 

ІГ ( гедехМаЕсНег. ЕіпсІ()) { 

гезиІЕЗЕгіпд = гедехМаЕсНег.дгоир(); 

} 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет предусматривать полноценную обработку исключений: 

ЗЕгіпд гезиІЕЗЕгіпд = пиіі; 

Егу { 

РаЕЕегп гедех = РаЕЕегп.сотрі1е("\\сІ+"); 

МаЕсИег гедехМаЕсНег = гедех.таЕсІлег(зиЬзесЕЗЕгіпд); 
іЕ (гедехМаЕсНег. ЕіпсІО) { 

гезиІЕЗЕгіпд = гедехМаЕсііег. дгоир(); 

} 

} саЕсб (РаЕЕегпЗупЕахЕхсерЕіоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

.ІаѵаБсгірІ 

ѵаг гезиІЕ = зиЬ^есЕ.таЕсН(/\б+/); 
іЕ (гезиІЕ) { 

гезиІЕ = гезиІЕ[0]; 

} еізе { 

гезиІЕ = ''; 

} 

РНР 

іГ (ргед_таЕсб( '/\сі+/’. $зиЬ]есЕ, $дгоирз)) { 

$гези1Е = $дгоирз[0]; 

} еізе { 

$гези1Е = ''; 

} 

РегІ 


ІЕ ($зиЬзесЕ =~ т/\б+/) { 
$гези!Е = $&; 
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} еізе { 

$ гезиіі; = ' '; 

} 

РуіНоп 

Для быстрой однократной проверки можно использовать глобальную 
функцию: 

таТсПоЬ] = ге.зеагс [)(” гедех раТТегп”, зиЬ]ес1:) 
іі таіеІіоЬ]: 

гезиІТ = таѣсІюЬ]. дгоир() 
еізе: 

гезиіі: = 

Чтобы иметь возможность использовать то же самое регулярное выра¬ 
жение повторно, следует создать объект скомпилированного регуляр¬ 
ного выражения: 

геоЬ] = ге.сотрі1е("гедех раііегп”) 
таІісІ’іоЬі = геоЬ]. зеагсІі(зиЬ]ес1) 
іі таТсІі: 

гезиіі: = таІсІюЬ]. дгоир() 
еізе: 

гезиіі: = 


КиЬу 

Можно использовать оператор =~ и его специальную переменную $&: 

і-р зиЬ]есі: =” /гедех раХХегп/ 
гезиіі: = $& 

еізе 

гезиіі: = 
епсі 

Как вариант можно задействовать метод та1с1і() объекта Редехр: 

таТсІюЬ] = /гедех раНегп/. таісіг(зиЬдесі:) 
таІсІіоЬ] 

гезиіі: = таІсІюЬ^О] 

еізе 

гезиіі: = 
епсі 

Обсуждение 

Извлечение фрагмента строки, соответствующего шаблону, - это еще 
одна из основных задач, решаемых с помощью регулярных выраже¬ 
ний. Во всех языках программирования, рассматриваемых в этой кни¬ 
ге, имеется простой способ получения первого совпадения с регуляр¬ 
ным выражением в строке. Функция начнет попытки применения ре¬ 
гулярного выражения с начала строки и продолжит просматривать ее, 
пока не будет обнаружено совпадение. 
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.ЫЕТ 

В классе Ведех платформы .ЫЕТ отсутствует функция-член, которая воз¬ 
вращала бы фрагмент, совпавший с регулярным выражением. Но в нем 
имеется метод МаІсІі(), возвращающий экземпляр класса МаѣсИ. Объекты 
класса Маісіі имеют свойство Ѵаіие, в котором хранится текст, совпавший 
с регулярным выражением. Если попытка найти совпадения с регуляр¬ 
ным выражением потерпела неудачу, этот метод все равно вернет объ¬ 
ект МаІісИ, свойство Ѵаіие которого будет содержать пустую строку. 

Всего имеется пять перегруженных версий метода Ма1с1і(). В первом ар¬ 
гументе всегда передается строка с испытуемым текстом, в котором тре¬ 
буется отыскать совпадения с регулярным выражением. Этот аргумент 
не может иметь значение пиіі. В противном случае метод Маіісіп () возбу¬ 
дит исключение АгдитепІМиПЕхсерІіоп. 

Если регулярное выражение необходимо использовать небольшое чис¬ 
ло раз, можно воспользоваться статическим методом. В этом случае 
вторым аргументом методу передается регулярное выражение. В треть¬ 
ем необязательном аргументе можно передать параметры регулярного 
выражения. Если регулярное выражение содержит синтаксическую 
ошибку, будет возбуждено исключение АгдитепІЕхсерНоп. 

Если одно и то же регулярное выражение требуется применить для про¬ 
верки множества строк, можно повысить производительность программ¬ 
ного кода, предварительно создав объект Кедех и затем вызывая метод 
Ма1сИ() этого объекта. Этот метод принимает единственный обязатель¬ 
ный аргумент - испытуемую строку. Во втором необязательном аргу¬ 
менте можно указать позицию символа, начиная с которого следует вы¬ 
полнять поиск. Фактически число, указываемое во втором аргументе, - 
это количество символов от начала испытуемой строки, которые долж¬ 
ны игнорироваться регулярным выражением. Это удобно, если часть 
строки уже была проверена и необходимо выполнить проверку в остав¬ 
шейся части строки. Указываемое число должно быть в диапазоне от 
нуля до величины длины строки. В противном случае метод Ма1сіі( ) воз¬ 
будит исключение АгдитепІОиіО'РВапдеЕхсерІіоп. 

Если методу передается второй аргумент с начальной позицией, то 
можно также передать третий аргумент - длину подстроки, в пределах 
которой следует искать совпадения с регулярным выражением. Это 
число должно быть больше или равно нулю и не превышать длины ис¬ 
пытуемой строки (первый аргумент) минус начальное смещение (второй 
аргумент). Например, вызов гедехОЬ;].Ма1сІ'і("123456" ) 3, 2) попытается 
отыскать совпадение в подстроке ”45". Если величина третьего аргумен¬ 
та будет больше, чем длина испытуемой строки, метод МаІсІіО возбудит 
исключение АгдитепіОиіОІВапдеЕхсерІіоп. Если величина третьего аргу¬ 
мента не будет превышать длину испытуемой строки, но сумма второго 
и третьего аргументов окажется больше длины строки, то будет возбу¬ 
ждено другое исключение: ІпсІехОиІО^ПапдеЕхсерІіоп. Если вы позволяете 
конечному пользователю указывать начальную и конечную позиции, 
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то либо проверяйте полученные значения перед вызовом метода Маіісіп (), 
либо предусмотрите обработку обоих типов исключений. 

Статические методы не имеют аргументов, с помощью которых можно 
было бы указать, в какой части строки следует выполнять поиск совпа¬ 
дения с регулярным выражением. 

Іаѵа 

Чтобы получить часть строки, совпавшей с регулярным выражением, 
необходимо создать объект класса МаІсНег, как описывается в рецепте 3.3, 
и затем вызвать метод Еіпс1() этого объекта без аргументов. Если метод 
Еіпсі() вернет значение Ігие, следует вызвать метод дгоир() без аргумен¬ 
тов, чтобы извлечь текст, совпавший с регулярным выражением. Если 
метод 1 = іпсІ( ) вернет значение ^аізе, метод дгоирО вызывать не следует, так 
как в этом случае будет возбуждено исключение ІІІедаІЗЕаЕеЕхсерЕіоп. 

Метод МаІісМег.'ГіпсІО принимает один необязательный аргумент с на¬ 
чальной позицией в испытуемой строке. Этот аргумент можно исполь¬ 
зовать, чтобы организовать поиск, начиная с определенной позиции 
в строке. Если указать значение ноль, поиск начнется с начала строки. 
Если указать значение меньше нуля или больше длины испытуемой 
строки, будет возбуждено исключение ІпсІехОиЕОЕВоипсізЕхсерІііоп. 

Если опустить аргумент, функция Еіпс1() всякий раз будет начинать по¬ 
иск с позиции, следующей за предыдущим совпадением, найденным 
ею. Если вызвать функцию ЕіпсІ() сразу после вызова метода Раііііегп. 
та1:сПег() или Маіхііег. гезеШ, она начнет поиск с начала строки. 

ІаѵаБсгірі 

Метод зі:гіпд . таІісЕі () принимает единственный аргумент с регулярным 
выражением. Регулярное выражение можно передавать в виде литера¬ 
ла регулярного выражения, в виде объекта регулярного выражения 
или в виде строки. Если регулярное выражение передается в виде стро¬ 
ки, метод зІгіпд.таІісЕО создаст временный объект гедехр. 

Если попытка сопоставления потерпит неудачу, метод зІгіпд.таІсІіО 
вернет значение пиіі. Это позволяет отличать случаи, когда в строке от¬ 
сутствуют совпадения с регулярным выражением и когда для регуляр¬ 
ного выражения обнаруживается совпадение с нулевой длиной. Это 
означает, что невозможно будет напрямую отобразить результат, так 
как на экране может появиться текст «пиіі» или сообщение об ошибке 
обращения к несуществующему объекту. 

Если попытка сопоставления увенчается успехом, метод зЕгіпд.та1:сіі() 
вернет массив с полной информацией о совпадении. Нулевой элемент 
массива - это строка с текстом, совпавшим с регулярным выражением. 

Регулярное выражение не должно содержать флаг /д. В противном слу¬ 
чае поведение метода зЕгіпд.таЕс1і() будет отличаться от описанного 
здесь, как объясняется в рецепте 3.10. 
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РНР 

Функция ргед_та1:сГі( ), рассматривавшаяся в двух предыдущих рецеп¬ 
тах, принимает необязательный третий аргумент, в котором будет со¬ 
храняться текст, совпавший с регулярным выражением и с его сохра¬ 
няющими группами. Если функция ргед_та1:сІі() возвращает значение 1, 
в указанной переменной будет храниться массив строк. В нулевом эле¬ 
менте массива хранится совпадение со всем регулярным выражением. 
Остальные элементы массива будут описаны в рецепте 3.9. 

РегІ 

Когда оператор т// сопоставления с шаблоном обнаруживает совпаде¬ 
ние, он записывает значения в несколько специальных переменных. 
Одна из таких переменных, $&, хранит часть строки, совпавшей с регу¬ 
лярным выражением. Другие специальные переменные будут описаны 
в последующих рецептах. 

РуіНоп 

В рецепте 3.5 описывается функция зеагсП(). В этом рецепте экземпляр 
класса МаІісГіОЬзесІ:, возвращаемый функцией зеагс(і(), сохранялся в пе¬ 
ременной. Чтобы получить часть строки, совпавшей с регулярным вы¬ 
ражением, следует вызвать метод дгоир() объекта совпадения без аргу¬ 
ментов. 

КиЬу 

В рецепте 3.8 описываются переменная $~ и объект МаІісІіОаІа. В строко¬ 
вом контексте этот объект преобразуется в текст, совпавший с регуляр¬ 
ным выражением. В контексте массива этот объект преобразуется в мас¬ 
сив, нулевой элемент которого хранит совпадение со всем регулярным 
выражением. 

$& - это специальная переменная, доступная только для чтения. Она 
представляет собой псевдоним для $~[0], где хранится совпадение со 
всем регулярным выражением. 

См. также 

Рецепт 3.5, где демонстрируется код, проверяющий наличие совпаде¬ 
ния с регулярным выражением в пределах испытуемой строки без из¬ 
влечения фактического совпадения. 

Рецепт 3.8, где демонстрируется код, определяющий позицию и длину 
совпадения. 

Рецепт 3.9, где демонстрируется код, извлекающий фрагмент испытуе¬ 
мой строки, совпавший с определенной частью регулярного выражения 
(сохраняющей группой). 
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Рецепт 3.10, где демонстрируется код, извлекающий список всех совпа¬ 
дений, которые были найдены регулярным выражением в испытуемой 
строке. 

Рецепт 3.11, где демонстрируется код, выполняющий обход всех совпа¬ 
дений, которые были найдены регулярным выражением в испытуемой 
строке. 


3.8. Определение позиции и длины совпадения 

Задача 

Вместо извлечения подстроки, совпавшей с регулярным выражением, 
как показано в предыдущем рецепте, необходимо определить начальную 
позицию и длину совпадения. При наличии этой информации можно 
будет извлечь совпадение другими средствами или выполнить обработ¬ 
ку части оригинальной строки, совпавшей с регулярным выражением. 

Решение 

С# 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

іпі таІсИзІагі: , таІісОІепдІіО = -1; 

Маісіі таІісМЯезиІІ: = Яедех. Ма1:сІз(зиЬзес1:51;гіпд, @’’\с1+”); 
іі (таісОВезиІі. Зиссезз) { 

таіс^зііа гі: = таіісІіЯезиІІ:. Іпсіех; 
та1:сП1епд1:Із = таісЬВезиІі. ЦепдІіМ; 

} 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее создать объект Ведех: 

іпі: таісИзіагі, паісіііепдііі = -1; 

Ведех гедехОЬ] = пем Ведех(@"\сІ+”); 

Маісіі таісЬВезиІі = гедехОЬ]. МаісЬ(зиЬ]есіЗігіпд) . Ѵаіие; 
іі (таісЬЯезиІі.Зиссезз) { 

таісЬзіагі = таісЬ Вези Іі. Іпсіех; 
таісЫепдіЬ = таісЬВезиІі. Ьепдіііп; 

} 

ѴВ.МЕТ 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

Оіт МаісЬЗіагі = -1 
Оіт МаісЫепдіЬ = -1 

Оіт МаісЬВезиІі = Ведех. МаісІ’і(5иЬіесі5ігіпд 1 "\сІ+") 

Іі МаісЬВезиІі.Зиссезз ТЬеп 
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МаГсІіЗІагІ = МаГсПНезиИ. Іпсіех 
Ма1;сІпІепді;Гі = МаІісГіРезиІІ:. ІепдІіГі 
ЕпсІ ІГ 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее создать объект Редех: 

Оіт Ма1:сГіЗі:агі: = -1 

Оіш МаІісГіІепдІіГі = -1 

йіп ВедехОЬ] Аз Ыеѵ\/ Редех (”\с!+'’) 

Оіт МаІісГіРезиІІ: = РедехОЬ]. МаІісГі(ЗиЬ^есІіЗІ: гіпд, "\сІ+") 

ІГ МаГсИНезиІГ.Зиссезз ТГіеп 

МаГсИЗГагГ = МаГсГіВезиП. Іпсіех 
МаГсіиепдГІі = МаГсИВезиІГ. ІепдІіГі 
ЕпсІ ІГ 

]аѵа 

іпГ таГсНЗГагГ, таГсМепдП! = -1; 

РаГГегп гедех = РаГГегп.сотрі1е("\\сІ+"); 

МаГсПег гедехМаГсМег = гедех.таГсЬег(зиЬ]есГЗГгіпд); 

ІГ (гедехМаГсІіег. Гіпсі()) { 

таГсІіЗіагІ = гедехМаГсИег. зГагГ(); 
таГсИЕепдГИ = гедехМаГсІлег.епсі() - таісИЗГагГ; 

} 

.ІаѵаЗсгірІ 

ѵаг таГсІізГагГ = -1; 

ѵаг таГсИІепдГІі = -1; 

ѵаг таісіл = /\6+/ . ехес(зиЬ]есГ); 

іГ (таГсИ) { 

таГсІізГагГ = таГсІі. іпсіех; 
таГсІ'іІепдГІі = та1:сГі[0 ]. ІепдІіГі; 

} 


іГ (ргед_таГсИ( '/\б +/', $зиЬ]есГ, $дгоирз, РРЕ0_0РРЗЕТ_САРТ11РЕ) ) { 
$таГсІізГагГ = $дгоирз[0][1 ]; 

$таГсП1епдГІі = зГг1еп($дгоирз[0][0]); 

} 

РегІ 

іГ ($зиЬ]есГ =~ т/\сІ+/д) { 

$таГсПзГагГ = $-[0]; 

$таГсИ1епдГІі = $+[0] - $-[0]; 

} 

РуіНоп 

Для быстрой однократной проверки можно использовать глобальную 

функцию: 
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таІсІюЬ] = ге. зеагсіп (г"\й+", зиЬ]ес1) 

ІІ таІсІпоЬ]: 

таісіізіагі = таІсІ'іоЬ]. зііагі:() 
таісіііепдіііі = таІсІюЬ]. епсІ() - таіісіпзііагі: 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее использовать объект скомпилированного 
регулярного выражения: 

геоЬ] = ге. сотрі1е( г"\сІ+'’ ) 
таІсПоЬ] = геоЬ]. зеагсІі(5иЬ]ес1) 

ІІ таІсСюЬ] : 

таІсПзІаП = таісІіоЬі. з1агі() 
таісі'ііепдііп = таІсПоЬ]. епсі() - таісіізіагі 


КиЬу 

Можно использовать оператор =“ и его специальную переменную $~: 

іі зиЬ^есІ =~ /гедех раііегп/ 
таІсПзІагІ = $~.Ьедіп() 
таісі'ііепдііп = $~.епс1() - таіс&зіап 
епсі 

Как вариант можно задействовать метод та1сіі() объекта Недехр: 

таІсІюЬ] = /гедех раТТегп/. та1сІі(зиЬ]ес1) 
іі таІсІюЬ] 

таІсИзІаП = таІсСюЬ]. Ьедіп() 
таісіііепдііі = таІсІюЬ]. епсі() - таісіізіагі 
епсі 

Обсуждение 

.МЕТ 

Для получения позиции и длины совпадения в решении использован 
тот же метод Редех.Ма1сИ(), что был описан в предыдущем рецепте. На 
этот раз использовались свойства Іпсіех и І_епд1И объекта Маісіі, возвра¬ 
щаемого методом Ведех.МаІсН(). 

Свойство Іпсіех хранит номер позиции в испытуемой строке, где начина¬ 
ется совпадение с регулярным выражением. Если совпадение начина¬ 
ется с начала строки, значением свойства Іпсіех будет ноль. Если совпа¬ 
дение начинается со второго символа в строке, значением свойства Іпсіех 
будет единица. Максимально возможное значение свойства Іпсіех равно 
длине строки. Такое может произойти, когда для регулярного выраже¬ 
ния обнаруживается совпадение нулевой длины в конце строки. На¬ 
пример, регулярное выражение, состоящее только из якорного мета¬ 
символа <\2>, всегда совпадает только в конце строки. 

Свойство І_епдІІі хранит число совпавших символов. Вполне допусти¬ 
мым считается, когда совпадение имеет нулевую длину. Например, ре- 
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гулярное выражение, состоящее только из метасимвола границы слова 
<\Ь>, будет обнаруживать совпадение нулевой длины в начале первого 
слова в строке. 

Если попытка сопоставления не увенчалась успехом, метод Недех.МаісП() 
все равно вернет объект Маісіі, оба свойства Іпсіех и ІепдІіГі которого будут 
равны нулю. Эти значения могут также появляться и в случае успеха 
сопоставления. Регулярное выражение, состоящее только из якорного 
метасимвола начала строки <\А>, будет обнаруживать совпадение нуле¬ 
вой длины в начале строки. Вследствие этого нельзя полагаться на 
свойства МаІсГі . Іпсіех и МаІісГі . ІепдІіП в определении успешности попытки 
сопоставления. Вместо этого лучше использовать свойство Маісіі . Зиссезз. 

.Іаѵа 

Чтобы определить позицию и длину совпадения, следует вызвать метод 
МаісІіег.ііпсІО, как было описано в предыдущем рецепте. Если метод 
ГіпсІ() вернет значение іг ие, можно вызвать метод МаісІіег.зіагіО без ар¬ 
гументов, чтобы получить индекс первого символа совпадения с регу¬ 
лярным выражением. При вызове метода епсі() без аргументов возвра¬ 
щается индекс первого символа, следующего за совпадением. Чтобы 
определить длину, достаточно вычесть индекс первого символа совпаде¬ 
ния из индекса первого символа, следующего за совпадением, которая 
может оказаться равной нулю. Если вызвать метод зііа г1:( ) или епсІ(), не 
вызвав перед этим метод ііпс1(), будет возбуждено исключение ІПедаІ- 
ЗіаіеЕхсерііоп. 

.ІаѵаБсгірІ 

Вызов метода ехес() объекта гедехр возвращает массив с полной инфор¬ 
мацией о совпадении. Этот массив обладает рядом дополнительных 
свойств. Свойство іпсіех хранит позицию в испытуемой строке, с кото¬ 
рой начинается совпадение с регулярным выражением. Если совпаде¬ 
ние начинается с начала строки, свойство іпсіех будет иметь значение 
ноль. Нулевой элемент массива хранит строку совпадения со всем регу¬ 
лярным выражением. Чтобы определить длину этой строки, можно 
воспользоваться ее свойством Іепдііі. 

Если для регулярного выражения нет ни одного совпадения в строке, 
метод гедехр.ехес() вернет значение піііі. 

Не следует использовать свойство Іазі Іпсіех массива, возвращаемого ме¬ 
тодом ехес(), для определения позиции последнего символа в совпаде¬ 
нии. В строгой реализации ЗаѵаЗсгірі свойство Іазііпсіех вообще отсут¬ 
ствует в возвращаемом массиве, оно имеется только у самого объекта 
гедехр. Но и свойство гедехр. Іазііпсіех тоже не следует использовать. 
Оно - ненадежный источник информации из-за различий между брау¬ 
зерами (подробнее об этом рассказывается в рецепте 3.11). Вместо этого 
для определения позиции, где закончилось совпадение, нужно просто 
сложить значения свойств таісіі.іпсіех и таіс!і[0].1епдіІі. 




3.8. Определение позиции и длины совпадения 


203 


РНР 

В предыдущем рецепте описывалось, как получить текст, совпавший 
с регулярным выражением, передавая третий аргумент функции ргед_ 
таіісіп (). Позицию совпадения можно получить, передав в четвертом ар¬ 
гументе значение РР Е0_0РР5ЕТ_САРТІІНЕ. Этот аргумент определяет, что 
именно будет сохранять функция ргед_та^сІі() в третьем аргументе, ко¬ 
гда она возвращает значение 1. 

Если четвертый аргумент опущен или в нем передается нулевое значе¬ 
ние, переменная, передаваемая в третьем аргументе, принимает массив 
строк. Когда в четвертом аргументе передается значение РРЕ0_0ЕЕЗЕТ_ 
САРТІІВЕ, переменная принимает массив массивов. Нулевой элемент мас¬ 
сива все так же хранит общее совпадение (смотрите предыдущий ре¬ 
цепт), а первый и последующие элементы, как и прежде, хранят со¬ 
держимое сохраняющих групп с номерами один и выше (смотрите сле¬ 
дующий рецепт). Но вместо простой строки совпадения с регулярным 
выражением или сохраняющей группой элементы массива хранят мас¬ 
сивы из двух значений: текст совпадения и позицию в строке, где это 
совпадение было обнаружено. 

Так, для общего совпадения нулевой под элемент нулевого элемента 
хранит текст, совпавший с регулярным выражением. Если этот текст 
передать функции зШепО, можно узнать его длину. Подэлемент с ин¬ 
дексом 1 нулевого элемента хранит целое число, определяющее пози¬ 
цию в испытуемой строке, где начинается совпадение. 

РегІ 

В языке РегІ все начальные позиции совпадений с сохраняющими груп¬ 
пами запоминаются в массиве а конечные позиции — в массиве @+. 
Совпадение со всем выражением целиком сохраняется в группе с индек¬ 
сом 0. Определить позицию начала совпадения со всем выражением 
можно из элемента массива @-[0], а конца совпадения — из элемента @+[0]. 

РуіНоп 

Метод з1:агі() объекта МаІ сІ)0Ь]есІ возвращает позицию в строке, где на- 
чинается совпадение с регулярным выражением. Метод епсі() возвра¬ 
щает позицию первого символа в строке, следующего за совпадением. 
Оба метода возвращают одно и то же значение в случае, когда обнару¬ 
жено совпадение нулевой длины. 

Методы зІіагіО и епсі () могут принимать аргумент и возвращать фраг¬ 
мент текста, совпавшего с одной из сохраняющих групп в регулярном 
выражении. Например, вызов зіагіі(і) вернет позицию начала совпаде¬ 
ния для первой сохраняющей группы, вызов епсі(2) - позицию конца 
совпадения для второй группы и т. д. Язык РуіЬоп поддерживает до 99 
сохраняющих групп. Группе с номером 0 соответствует совпадение со 
всем регулярным выражением. Передача методам зІіагШ и епсІ() любого 
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числа, за исключением нуля, превышающего число сохраняющих групп 
в регулярном выражении (которых может быть до 99), вызывает исклю¬ 
чение ІпсІехЕггог. Если передан номер группы, существующей в регуляр¬ 
ном выражении, но эта группа не участвовала в совпадении, методы 
зГагГО иепсІ() вернут для этой группы значение -1. 

При желании можно сохранить начальную и конечную позиции в кор¬ 
теже, вызвав метод зрап() объекта совпадения. 

КиЬу 

В рецепте 3.5 для поиска первого совпадения с регулярным выражени¬ 
ем использовался оператор =”. Попутно этот оператор записывает в спе¬ 
циальную переменную $~ экземпляр класса МаІісГіОаІіа. Эта переменная 
является локальной для потоков выполнения и локальной для методов. 
Это означает, что содержимое этой переменной может использоваться 
только в пределах метода и пока в этом методе снова не будет использо¬ 
ван оператор =“. При этом можно не беспокоиться, что содержимое пере¬ 
менной будет затерто в каком-нибудь другом потоке выполнения или 
каким-нибудь другим методом в этом потоке выполнения. 

При желании можно сохранять информацию о нескольких совпадени¬ 
ях с регулярными выражениями, вызывая метод та1:сГ( ) объекта Ведехр. 
Этот метод принимает испытуемую строку в виде единственного аргу¬ 
мента. Метод возвращает экземпляр класса МаГсГОаГа, если совпадение 
было найдено, или значение піі - в противном случае. Кроме того, он 
сохраняет тот же самый экземпляр МаІсІіОаІіа в специальной переменной 
$~, но не затирает другие экземпляры класса МаІісГіОаІіа, хранящиеся 
в других переменных. 

Объект класса МаІісГіОаІіа содержит полную информацию о совпадении 
с регулярным выражением. В рецептах 3.7 и 3.9 описывается, как из¬ 
влечь текст, совпавший с регулярным выражением и с сохраняющими 
группами. 

Метод Ьедіп() возвращает позицию в испытуемой строке, где начинает¬ 
ся совпадение с регулярным выражением. Метод епс!() возвращает пози¬ 
цию первого символа в испытуемой строке, следующего за совпадени¬ 
ем. Метод оГГзеГО возвращает массив начальных и конечных позиций. 
Все три метода принимают единственный аргумент. Чтобы получить 
позиции, относящиеся к совпадению со всем регулярным выражением, 
следует передать значение 0. Если передается положительное число, 
возвращаются позиции, относящиеся к совпадению с указанной сохра¬ 
няющей группой. Например, вызов Ьедіп(І) вернет начало совпадения 
с первой сохраняющей группой. 

Не следует использовать методы ІепдГГО или зігеО, чтобы получить 
длину совпадения. Оба эти метода возвращают число элементов масси¬ 
ва, в который преобразуется объект класса МаГсГЮаГа в контексте, когда 
ожидается массив, как будет описано в рецепте 3.9. 
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См. также 

Рецепт 3.5, где демонстрируется код, проверяющий наличие совпаде¬ 
ния с регулярным выражением в пределах испытуемой строки без из¬ 
влечения фактического совпадения. 

Рецепт 3.7, где показано, как получить фрагмент, фактически совпав¬ 
ший с регулярным выражением. 

Рецепт 3.9, где демонстрируется код, извлекающий фрагмент испытуе¬ 
мой строки, совпавший с определенной частью регулярного выражения 
(сохраняющей группой). 

3.9. Извлечение части совпавшего текста 

Задача 

Как и в рецепте 3.7, имеется регулярное выражение, совпадающее с под¬ 
строкой в испытуемом тексте, но на этот раз необходимо извлечь только 
одну часть совпадения из этой подстроки. Чтобы отделить части совпа¬ 
дений друг от друга, в регулярном выражении используется сохраняю¬ 
щая группировка, как описано в рецепте 2.9. 

Например, в строке Ріеазе ѵізіі 1Щ1р:/Д/м\л/. гедехсоокЬоок.сот Рог тоге 
іпРогтаІіоп регулярному выражению <НРРр://([а-20-9.-]+)> соответствует 
фрагмент Ітіііір ://\ л/\а/\л/. гедехсоокЬоок.сот . Части регулярного выражения, 
заключенной в первую сохраняющую группу, соответствует фрагмент 
\л/\л/\л/. гедехсоокЬоок.сот . Необходимо извлечь это доменное имя, сохранен¬ 
ное первой сохраняющей группой, в строковую переменную. 

Для иллюстрации принципов работы с сохраняющими группами мы 
будем использовать это простое регулярное выражение. В главе 8 при¬ 
водится более точное регулярное выражение, которое может использо¬ 
ваться для поиска адресов ІІКЬ. 

Решение 

С# 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

зЬгіпд гезиІІЗІ:гіпд = Редех. Маіісіп (зиЬ^ есІЗІгіпд , 

"М1:1:р://([а-гО-9. -]+)").0гоирз[1 ].Ѵаіие; 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее создать объект Редех: 

Редех гедехОЬ] = пем Недех( : //([а-гО-9. -]+)"): 

зігіпд гезиІІіЗІ:гіпд = гедехОЬі . МаІсіі(зиЬ]ес1:Зі:гіпд) .6гоирз[1 ]. Ѵаіие; 
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ѴВ.МЕТ 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

Ріт ВезиІІіЗі:гіпд = Редех. МаІісМ (ЗиЬ^ есІіЗІ:гіпд , 

"Ш1:р://([а-20-9. -]+)").6гоирз(1). Ѵаіие 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее создать объект Педех: 

Оіт РедехОЬ] Аз Редех( "Іііііір ://([а-^0-9.-]+)") 

йіт РезиІІЗІтіпд = РедехОЬ]. МаісІі(ЗиЬ]ес1:8і:гіпд) .Сгоирз(1). Ѵаіие 

.Іаѵа 

31: гіпд гезиІІіЗі:гіпд = пиіі; 

Раііегп гедех = Ра1:1:егп. сотрі1е( "ІгЫір: //([а-гО-9. -]+)"): 

Маісііег гедехМаІсПег = гедех.таІісИег(зиЬзесІіЗі:гіпд); 
іі" (гедехМаІсііег.-ГіпсК)) { 

гезиНЗІ гіпд = гедехМаІісМе г. дгоир(1); 

} 

.ІаѵаБсгірг 

ѵаг гезиИ; 

ѵаг паісіі = /М1:1:р:\/\/([а-^0-9.-]+)/.ехес(зиЬ^ес1:); 
і Т (таІсП) { 

гезиіі: = таІісИ [ 1 ]; 

} еізе { 
гезиіі: = 

} 

РНР 

ІТ (ргед_та1:сИ( ’%Ігі:і:р://([а-гО-9.-]+)%’, $зиЬдесі:, $дгоирз)) { 

$ гезиіі: = $дгоирз[1]; 

} еізе { 

$ гезиіі: = *; 

} 

РегІ 

ІТ ($зиЬ]ес1: =“ т! ІгЫір://([а-гО-9.-]+)!) { 

$ гезиіі: = $1; 

} еізе { 

$гезиН = ’'; 

} 

РуіНоп 

Для быстрой однократной проверки можно использовать глобальную 
функцию: 

таІсІюЬ] = ге. зеагсІі( "ІтЬѣр://([а-гО-9. -]+)", зиЬдесі:) 

ІТ таІсІюЬ]: 
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гезиіі = таІсІіоЬ] . дгоир(1) 
еізе: 

гезиіі: = 

В случае многократного использования того же самого регулярного вы¬ 
ражения предпочтительнее использовать объект скомпилированного 
регулярного выражения: 

геоЬ] = ге. сотрі1е( "Ігіііір : //([а-гО-9.-]+)") 
таІсІіоЬ] = геоЬ]. зеагсИ(зиЬ]ес1:) 

ІГ таісіі: 

гезиіі = таТсІіоЬ]. дгоир(1) 
еізе: 

гезиіі = 


КиЬу 

Можно использовать оператор =” и его специальные нумерованные пе¬ 
ременные, такие как $1: 

11 зиЬіес! =“ %г!И11р://([а-і0-9.-]+)! 
гезиіі = $1 

еізе 

гезиіі = 
епсі 

Как вариант можно задействовать метод па!сІі() объекта Редехр: 

таІсІлоЬ^ = %г! М11р://([а-гО-9.-]+)!.та1сІі(зиЬ]ес1) 
іі таІсІюЬ] 

гезиіі = та!сІіоЬ][1] 

еізе 

гезиіі = 
епсі 

Обсуждение 

В рецептах 2.10 и 2.21 описывалось, как использовать нумерованные 
обратные ссылки в регулярных выражениях и в замещающем тексте, 
чтобы можно было описать совпадение с тем же текстом еще раз или 
вставить часть совпадения с регулярным выражением в замещающий 
текст. Те же самые номера ссылок можно использовать в программном 
коде, чтобы извлекать совпадения с сохраняющими группами. 

Нумерация сохраняющих групп в регулярных выражениях ведется на¬ 
чиная с единицы. В языках программирования нумерация элементов 
списков или массивов обычно начинается с нуля. Во всех языках про¬ 
граммирования, описываемых в этой книге, где сохраняющие группы 
запоминаются в массиве или в списке, используется та же нумерация 
сохраняющих групп, что и в регулярном выражении, то есть начиная 
с единицы. Нулевой элемент в массиве или в списке используется для 
сохранения совпадения со всем регулярным выражением. Это означает, 
что если в регулярном выражении имеется три сохраняющие группы, 
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массив, хранящий совпадения с ними, будет иметь четыре элемента. 
Нулевой элемент будет хранить общее совпадение со всем регулярным 
выражением, а первый, второй и третий элементы - текст, совпавший 
с тремя сохраняющими группами. 

^ЕТ 

Чтобы извлечь информацию о сохраняющих группах, потребуется об¬ 
ратиться к одной из версий функции-члена Редех. Ма1;сІі( ), впервые опи¬ 
санной в рецепте 3.7. Возвращаемый ею объект Маісіі имеет свойство 
Сгоирз, которое представляет собой коллекцию типа СгоирСоІІесІіоп. 
В коллекции хранится информация обо всех сохраняющих группах, 
присутствующих в регулярном выражении. Элемент Сгоирз[1] хранит 
информацию о первой сохраняющей группе, элемент Сгоирз[2] - о вто¬ 
рой группе и т. д. 

Коллекция Сгоирз хранит по одному объекту Сгоир для каждой сохра¬ 
няющей группы. Класс Сгоир имеет те же свойства, что и класс Маісіі, за 
исключением свойства Сгоирз. При обращении к МаІсІ"і.Сгоирз[1].Ѵа1ие 
возвращается текст, совпавший с первой сохраняющей группой, точно 
так же, как при обращении к МаІсІі.ѴаІие возвращается совпадение со 
всем регулярным выражением. При обращении к Маіісіп .6гоирз[1]. Іпсіех 
и МаІсН.Сгоирз[1].І_епдІР возвращаются начальная позиция и длина тек¬ 
ста, совпавшего с группой. Подробнее о свойствах Іпсіех и І_епдІР гово¬ 
рится в рецепте 3.8. 

Элемент Сгоирз[0] хранит информацию о совпадении со всем регулярным 
выражением, которая также хранится в самом объекте совпадения. 
Свойства МаІісИ . Ѵаіие и МаІсИ.0гоирз[0].Ѵа1ие полностью эквивалентны. 

Коллекция Сгоирз не возбуждает исключение при использовании оши¬ 
бочного номера группы. Например, при обращении к элементу Стойрз[-1] 
также будет получен объект Сгоир, но свойства этого объекта будут сви¬ 
детельствовать об отсутствии совпадения с этой несуществующей со¬ 
храняющей группой под номером -1. Лучший способ проверить это- 
воспользоваться свойством Зиссезз. При обращении к Сгоирз[-1].5иссезз 
будет возвращено значение Гаізе. 

Чтобы определить количество имеющихся сохраняющих групп, следу¬ 
ет проверить свойство Маісіі. Сгоирз. Соипі. Свойство Соипі следует тем же 
соглашениям, что и свойства Соипі: коллекций всех типов в платформе 
.ЫЕТ: при обращении к нему возвращается число элементов в коллек¬ 
ции, которое определяется как наибольший индекс плюс один. В дан¬ 
ном примере коллекция Сгоирз хранит элементы Сгоирз[0] и Сгоирз[1]. 
А свойство Сгоирз. Соипі имеет значение 2. 

}аѵа 

Программный код, извлекающий текст совпадения с сохраняющей 
группой или информацию о сохраняющей группе, практически не от¬ 
личается от программного кода, показанного в предыдущих примерах, 
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извлекающего ту же информацию о совпадении со всем регулярным 
выражением. Методы дгоир(), з1аг1() и епсі() класса Маісііег принимают 
по одному необязательному аргументу. Без этого аргумента или при пе¬ 
редаче в нем нулевого значения они возвращают совпадение или пози¬ 
ции, относящиеся ко всему регулярному выражению. 

При передаче положительного числа возвращается информация о со¬ 
ответствующей сохраняющей группе. Нумерация групп начинается 
с единицы, так же как и нумерация обратных ссылок в самом регуляр¬ 
ном выражении. Если указать число, превышающее число сохраняю¬ 
щих групп в регулярном выражении, все три функции возбудят исклю¬ 
чение ІпйехОиІОЕВоипсІзЕхсерІііоп. Если сохраняющая группа с указан¬ 
ным номером присутствует в регулярном выражении, но она не участ¬ 
вовала в сопоставлении, метод дгоир(л) вернет значение пиіі, а методы 
зіа П(п) и епсі(л) вернут -1. 

.ІаѵаБсгірі 

Как описывалось в предыдущем рецепте, метод ехес() объекта регуляр- 
ного выражения возвращает массив с информацией о совпадении. Нуле¬ 
вой элемент этого массива хранит совпадение со всем регулярным выра¬ 
жением. Первый элемент хранит текст, совпавший с первой сохраняю¬ 
щей группой, второй элемент — со второй сохраняющей группой и т. д. 

Если в строке отсутствует совпадение с регулярным выражением, ме¬ 
тод гедехр.ехесО вернет значение пиіі. 

РНР 

В рецепте 3.7 описывалось, как получить текст, совпавший с регуляр¬ 
ным выражением, передавая третий аргумент функции ргед_па1:сИ(). 
Когда функция ргед_та1сП() возвращает значение 1, в этот аргумент за¬ 
писывается массив. Нулевой элемент этого массива хранит строку со¬ 
впадения со всем регулярным выражением. 

Первый элемент хранит текст, совпавший с первой сохраняющей груп¬ 
пой, второй элемент - со второй сохраняющей группой и т. д. Длина 
массива равна числу сохраняющих групп плюс один. Индексы в масси¬ 
ве соответствуют номерам обратных ссылок в регулярном выражении. 

Если в четвертом аргументе функции ргед_та!сІі() передать константу 
РРЕС_0ЕЕЗЕТ_САРТ11ВЕ, как описывалось в предыдущем рецепте, длина мас¬ 
сива по-прежнему будет равна числу сохраняющих групп плюс один. 
Но вместо строк в каждом элементе массива будет храниться подмассив 
из двух элементов. Нулевой подэлемент хранит строку с текстом совпа¬ 
дения для всего регулярного выражения или сохраняющей группы. 
Первый подэлемент хранит целое число, определяющее позицию нача¬ 
ла совпадения в испытуемой строке. 
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РегІ 

Когда оператор т// сопоставления с шаблоном находит совпадение, он 
устанавливает значения нескольких специальных переменных. В чис¬ 
ло таких переменных входят $1, $2, $3 ит.д., которые хранят части стро¬ 
ки, совпавшие с сохраняющими группами в регулярном выражении. 

РуіНоп 

Решение этой задачи во многом идентично решению, что приводится 
в рецепте 3.7. Только вместо вызова метода дгоир() без параметров следу¬ 
ет указать номер интересующей сохраняющей группы. Вызов дгоир(І) 
вернет текст, совпавший с первой сохраняющей группой, дгоир(2) - со 
второй группой и т. д. В языке РуІЬоп поддерживается до 99 сохраняю¬ 
щих групп. Группа с номером 0 представляет совпадение со всем регу¬ 
лярным выражением. Если передать число, превышающее количество 
сохраняющих групп в регулярном выражении, метод дгоир() возбудит 
исключение ІпсІехЕггог. Если группа с указанным номером существует, но 
она не участвовала в сопоставлении, метод дгоирО вернет значение Иопе. 

Имеется возможность передавать методу дгоирО сразу несколько номе¬ 
ров сохраняющих групп, чтобы получить совпадения с несколькими 
группами за одно обращение. В этом случае результатом работы метода 
будет список строк. 

Если необходимо получить кортеж с текстами совпадений для всех со¬ 
храняющих групп, можно воспользоваться методом дгоирз() объекта 
Ма1:сІ"іОЬ]есі:. Кортеж будет хранить значения Мопе для тех групп, кото¬ 
рые не участвовали в сопоставлении. Если передать методу дгоирз() не¬ 
которое значение, оно будет использовано вместо значения Иопе для 
групп, не участвовавших в сопоставлении. 

Если вместо кортежа требуется получить словарь совпадений с сохраняю¬ 
щими группами, вместо метода дгоирзО можно вызвать метод дгоирсІісЮ. 
Если передать методу дгоирсИсШ некоторое значение, оно будет поме¬ 
щаться в словарь вместо значения Мопе для групп, не участвовавших 
в сопоставлении. 

КиЬу 

В рецепте 3.8 описывались переменная $" и объект МаІісМОаІіа. В контек¬ 
сте, где ожидается массив, этот объект интерпретируется как массив 
совпадений со всеми сохраняющими группами, имеющимися в регу¬ 
лярном выражении. Нумерация сохраняющих групп начинается с 1, 
как и обратных ссылок в регулярном выражении. Нулевой элемент мас¬ 
сива хранит совпадение со всем регулярным выражением. 

Переменные $1, $2 и т.д. - это специальные переменные, доступные 
только для чтения. $1 - это сокращенная форма записи для $~[1]; в этой 
переменной хранится текст совпадения с первой сохраняющей группой. 
В переменной $2 хранится текст совпадения со второй группой и т. д. 
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Именованное сохранение 

Если в регулярном выражении используются именованные сохраняю¬ 
щие группы, для получения совпадений в программном коде можно ис¬ 
пользовать их имена. 

С# 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

зігіпд гезиІІіЗІ:гіпд = Яедех.Ма1:сР(зиЬзес1:31: гіпд , 

"Ніір://(?<сіотаіп>[а-20-9. - ]+)"). 6 гоирз[ "сіотаіп"]. Ѵаіие; 

В случае многократного использования того же регулярного выраже¬ 
ния предпочтительнее создать объект Ведех: 

Ведех гедехОЬ] = пе\л/ Редех("М1:1:р://( ?<с!отаіп> [а-^0-9.-]+)"); 

зіігіпд гезиІІіЗІ:гіпд = гедехОЬ]. МаІісМ (зиЬ^ес1:31: гіпд). Сгоирз["сіотаіп"]. Ѵаіие; 

В языке С# нет отличий между способом получения объекта Огоир для 
нумерованной и именованной групп. В последнем случае коллекция 
бгоирз индексируется не целыми числами, а строками. Кроме того, 
в данном случае платформа .ЫЕТ не будет возбуждать исключение, ес¬ 
ли указанная группа не существует. При обращении к МаісО.Сгоирз["по- 
зисВдгоир ’І.Зиссезз просто будет возвращено значение іаізе. 

ѴВ.ЫЕТ 

Для быстрой однократной проверки можно использовать статическую 
функцию: 

Оіт ВезиІІіЗІ:гіпд = Ведех. Маіісіі (ЗиЬд есІЗІ:гіпд , 

"ІШ:р://(?<сіотаіп>[а-20-9. -]+)").бгоирз("сіотаіп").Ѵаіие 

В случае многократного использования того же регулярного выраже¬ 
ния предпочтительнее создать объект Ведех: 

Оіт ВедехОЬ] Аз Ведех(”И1:1:р://( ?<с1оглаіп>[ а-^0-9.-]+)") 

Оіт ВезиііЗігіпд = ВедехОЬ]. МаісО(ЗиЬ]есі31:гіпд) .6гоирз( "сіотаіп") . Ѵаіие 

В языке ѴВ.ЫЕТ нет отличий между способом получения объекта Огоир 
для нумерованной и именованной групп. В последнем случае коллек¬ 
ция Сгоирз индексируется не целыми числами, а строками. Кроме того, 
в данном случае платформа .ЫЕТ не будет возбуждать исключение, ес¬ 
ли указанная группа не существует. При обращении к МаісО.Огоирз[ ”по- 
зисОдгоир”].3иссезз просто будет возвращено значение іаізе. 

.Іаѵа 

Зіігіпд гезиІіЗігіпд = пиіі; 

Раііегп гедех = Раііегп. сотрі1е("0і:і:р://(?<сІотаіп>[а-20-9.-]+)"); 

Маісіег гедехМаісІіег = гедех.та1:сМег(зиЬдес1:Зі:гіпд); 
іі (гѳдехМаісІіег. ііпс!()) { 
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гезиІіЗігіпд = гедехМаІісГіе г. дгоир( "сіотаіп "); 

} 

В ^ѵа 7 была добавлена поддержка именованных сохраняющих групп. 
В этой версии также появился еще один перегруженный метод Маісііег. 
дгоир(), принимающий в виде параметра имя сохраняющей группы и воз¬ 
вращающий текст, совпавший с этой группой. Если передать имя несу¬ 
ществующей группы, он возбудит исключение ІПедаІАгдитепіЕхсерііоп. 

К сожалению, методы МаІісПег. з1:аг1:() и МаІісГіег.епсІ( ) не имеют похожих 
перегруженных версий. Если требуется получить позицию начала и кон¬ 
ца совпадения с именованной сохраняющей группой, необходимо ука¬ 
зать ее порядковый номер. В языке ^ѵа используется сквозная нумера¬ 
ция именованных и неименованных групп, слева направо. Методы 
дгоирО, зіагі() иепсі() класса МаІісГіе г принимают единственный необяза¬ 
тельный параметр. При вызове без параметра или со значением 0 в па¬ 
раметре они вернут совпадение со всем регулярным выражением или 
соответствующие ему позиции. 

ХКедЕхр 

ѵаг гезиіі; 

ѵаг таісГ = ХВедЕхр. ехес(зиЬ]есі, 

ХРедЕхр(” Гі1:1:р ://( ?<с!отаіп>[ а-^0-9. - ]+)")); 

іГ ( таІісГі ) { 

гезиіі: = таісіі. сіотаіп; 

} еізе { 
гезиіі = 

} 

Библиотека ХКедЕхр добавляет поддержку именованных групп в син¬ 
таксис регулярных выражений языка ^ѵаЗсгірі;. Вызов метода ХВедЕхр. 
ехес() добавляет в возвращаемый объект таісіі одноименное свойство 
для каждой именованной группы, что дает возможность ссылаться на 
группы по их именам. 


іі (ргед_таіс!і(’%Іііір://(?Р<сІотаіп>[а-20-9. -]+)%', $зиЬ]есі, $дгоирз)) { 
$гези1і = $дгоирз[ ’сіотаіп’ ]; 

} еізе { 

$гези1і = ’’; 

} 

Если в регулярном выражении имеются именованные сохраняющие 
группы, переменной $д гоирз будет присвоен ассоциативный массив. Текст 
совпадения для каждой сохраняющей группы будет добавлен в массив 
дважды. Извлекать совпадения из массива можно с использованием как 
номеров групп, так и их имен. В примере программного кода элемент 
$дгоирз[0] хранит совпадение со всем регулярным выражением, тогда 
как элементы $дгоирз[1] и $дгоирз[’сІотаіп’] хранят текст совпадения 
с единственной в этом регулярном выражении сохраняющей группой. 
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РегІ 

іі ($зиЬ]ес1 =” т! М1:1:р://( ?<с!отаіп>[ а-гО-9.-]+)! ) { 

$ гезиіі: = $+{ 'йотаіп '}; 

} еізе { 

$гези11 = ' '; 

} 

Именованная сохраняющая группировка поддерживается в языке РегІ 
начиная с версии 5.10. В хеше %+ хранятся тексты совпадений со всеми 
именованными сохраняющими группами. В языке РегІ именованные 
группы нумеруются вместе с нумерованными группами. В данном при¬ 
мере переменные $1 и $+{пате} хранят текст совпадения с единственной 
в этом регулярном выражении сохраняющей группой. 

РуіИоп 

таІсІюЬ] = ге. зеагсіі("Пі1р://(?Р<<1отаіп>[а-20-9. -]+)", зиЬ]есіі) 
іі таІсІюЬ]: 

гезиіі: = таісІіоЬ] .дгоир(”сІотаіп") 
еізе: 

гезиіі = 

Если в регулярном выражении имеются именованные сохраняющие 
группы, то вместо номера методу д гоир( ) можно передавать имена групп. 

КиЬу 

В КиЬу 1.9 добавлена поддержка именованных сохраняющих групп. 
Поддержка именованных сохранений в этой версии также была добав¬ 
лена в переменную $~ и объект МаІсПОаІа, описанный в рецепте 3.8. Об¬ 
ращение к $"[”пате"] или та1сІіоЬі["пате"] возвращает текст, совпавший 
с именованной группой «паше». Позицию начала и конца совпадения 
с именованной группой можно получить вызовами таІсНоЬ] . Ьедіп( "пате") 
и та!сИоЬ].епс1(”пате”). 

См. также 

Рецепт 2.9, где описываются нумерованные сохраняющие группы. 
Рецепт 2.11, где описываются именованные сохраняющие группы. 

3.10. Извлечение списка всех совпадений 

Задача 

Во всех предыдущих рецептах этой главы речь шла только о первом сов¬ 
падении, обнаруженном регулярным выражением в испытуемой стро¬ 
ке. Но во многих случаях регулярное выражение, совпадающее с ча¬ 
стью строки, может обнаруживать еще одно совпадение в оставшейся 
части строки. А за вторым совпадением может следовать третье и т. д. 
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Например, в строке Т5е Іиску питЬегз аге 7, 13, 16, 42, 65, апсі 99 регу¬ 
лярное выражение <\сі+> может обнаружить шесть совпадений: 7, 13, 16, 
42, 65 и 99. 

Необходимо извлечь список всех подстрок, которые обнаруживаются 
регулярным выражением при многократном применении его к фраг¬ 
менту строки, остающемуся после каждого очередного совпадения. 

Решение 

С# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

МаЕсГіСоІІесЦіоп таі:сШ$1: = Редех. МаіісГіез (зиЬ^ есІіЗі:гіпд , @"\с!+"); 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Ведех: 

Ведех гедехОЬ] = пе\л/ Ведех (@"\<1+"); 

Ма1;сГіСо11есі:іоп таѣсМІізІ; = гедехОЬ]. МаІісГіезС зиЬЗес1:31: гіпд ); 

ѴВ.МЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

йііті Маіхі’іі.ізі: = Педех. МаІісИез(ЗиЬ^есІіЗІ:гіпд, "\с!+") 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Ведех: 

Рііті ВедехОЬІ Аз Ведех("\сІ+") 

Оіт Ма^сИНзІ: = ВедехОЬ]. Ма1:сІіез( ЗиЬ^ есІіЗі:гіпд ) 

.Іаѵа 

Из1:<31: гіпд> гезиНіИзІ: = пем АггауІ_із1:<5і:гіпд>(); 

РаНегп гедех = РаИегп. сотрі1е(”\\сІ+”); 

МаІсИег гедехМаІісИег = гедех.та1:сІіег(зиЬ^есІіЗі:гіпд); 

\л/Ііі1е ( гедехМа^сИег. Гіпс1()) { 

гезиПіИзІ:. ас!с1( гедехМаІісГіе г. дгоир()); 

} 

іаѵаЗсгірі 

ѵаг Іізі; = зиЬІесІ:.таіісіп(ДсІ+/д): 


ргед_та1:сІі_а11(' /\сІ+/', $зиЬдесі:, $гезиіі:, РВЕ0_РАТТЕВМ_0В0ЕВ); 
$ гезиіі: = $ гезиіі: [ 0 ]; 
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РегІ 

@гези11 = $виЬ^ есі: =" т/\сІ+/д ; 

Этот прием работает, только если регулярное выражение не содержит 
сохраняющих групп, поэтому в подобных случаях следует использо¬ 
вать несохраняющие группы. Подробности приводятся в рецепте 2.9. 

РуіНоп 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать глобальную функцию: 

гезиіі = ге. 1іпсІа11( г"\сІ+" , зиЬіесІ) 

В случае многократного использования того же регулярного выраже¬ 
ния предпочтительнее использовать объект скомпилированного регу¬ 
лярного выражения: 

геоЬз = ге. сотрі1е( г"\сІ+") 
гезиіі: = геоЬ]. 1іпс1а11(зиЬіесІ) 

КиЬу 

гезиіі = зиЬіесІ. зсап(/\сІ+/) 

Обсуждение 

.МЕТ 

Метод МаІсИезО класса Редех многократно применяет регулярное выра¬ 
жение к строке, пока не будут найдены все совпадения. Он возвращает 
объект МаІсІіСоІІесІіоп, в котором хранятся все совпадения. Первым ар¬ 
гументом всегда передается испытуемая строка. В этой строке будут ра¬ 
зыскиваться совпадения с регулярным выражением. Первый аргумент 
не может иметь значение пиіі. В противном случае метод МаІсііезО воз¬ 
будит исключение АгдитепІИиПЕхсерНоп. 

Если требуется выполнить поиск совпадений с регулярным выражени¬ 
ем в небольшом количестве строк, можно использовать статическую пе¬ 
регруженную версию метода Ма1с1іез(). В первом аргументе этому мето¬ 
ду передается испытуемая строка, а во втором - регулярное выраже¬ 
ние. Параметры регулярного выражения можно передавать в третьем 
необязательном аргументе. 

Если предстоит обработать большое число строк, предпочтительнее 
сначала создать объект Педех и затем использовать его для вызова мето¬ 
да Ма1сІіез(). Единственным обязательным аргументом для этого метода 
является испытуемая строка. Во втором необязательном аргументе 
можно передать номер позиции символа, с которого должны начинать¬ 
ся попытки сопоставления с регулярным выражением. Фактически 
число, указываемое во втором аргументе, - это количество символов от 
начала испытуемой строки, которые должны игнорироваться регуляр- 
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ным выражением. Это может быть удобно, когда часть строки уже была 
проверена и необходимо выполнить проверку в оставшейся части стро¬ 
ки. Указываемое число должно быть между нулем и длиной строки. 
В противном случае метод МаісІіезО возбудит исключение Агдитепі:- 
ОиІіО'ГЯапдеЕхсерІііоп. 

Статические перегруженные версии методов не имеют аргумента, с по¬ 
мощью которого можно было бы указать, с какой позиции в строке сле¬ 
дует начинать поиск совпадения. Не существует перегруженной версии 
метода МаісІпезО, которая позволяла бы указывать, в какой позиции пе¬ 
ред концом строки следует останавливать поиск. В случае необходимо¬ 
сти можно вызывать метод Редех.Ма^сМС’зиуесІ’’, зіагі, зііор) в цикле, как 
показано в следующем рецепте, и вручную добавлять в список все най¬ 
денные совпадения. 

Іаѵа 

В языке ^ѵа отсутствует функция, которая извлекала бы список сов¬ 
падений. Но ее легко можно реализовать, адаптировав решение из ре¬ 
цепта 3.7. Для этого вызов метода 'ГіпсІ () нужно производить не в услов¬ 
ном операторе ІГ, а в цикле \л/Пі1е. 

Чтобы использовать классы 1_із1: и АггауІ_ізі, как в этом примере, нужно 
добавить инструкцию ітрогі заѵа.иііі.*; в начало файла с программ¬ 
ным кодом. 

.ІаѵаБсгірі 

В данном решении вызывается метод зігіпд. та1:с1п() точно так же, как 
в решении к рецепту 3.7. Но здесь есть одно маленькое, но важное отли¬ 
чие: флаг /д. Подробнее о флагах регулярных выражений рассказыва¬ 
ется в рецепте 3.4. 

Флаг /д предписывает функции таісІіО выполнить итерации по всем 
совпадениям в строке и поместить их в массив. В приведенном фраг¬ 
менте программного кода элемент 1із1:[0] будет хранить первое совпаде¬ 
ние с регулярным выражением, 1із1:[1] - второе и т. д. Узнать количест¬ 
во совпадений можно с помощью свойства Изі. ІепдІіР. В случае отсутст¬ 
вия совпадений метод зіігіпд . та1:сГі( ) как обычно вернет значение пиіі. 

Элементами этого массива являются строки. При использовании фла¬ 
га /д метод зіігіпд . таісІі( ) не предоставляет никакой дополнительной ин¬ 
формации о совпадениях с регулярным выражением. Если необходимо 
получить дополнительные сведения о совпадениях, следует выполнить 
итерации по совпадениям, как описывается в рецепте 3.11. 


Во всех решениях на языке РНР в предыдущих рецептах использова¬ 
лась функция ргед_таісіі(), которая отыскивает первое совпадение с ре¬ 
гулярным выражением в строке. Функция ргед_таісИ_а11() очень похо- 
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жа на нее. Главное ее отличие состоит в том, что она отыскивает в стро¬ 
ке все совпадения и возвращает целое число, обозначающее число най¬ 
денных совпадений с регулярным выражением. 

Первые три аргумента функции ргед_та^сІі_а11() идентичны первым 
трем аргументам функции ргед_та1:сІі(): строка с регулярным выраже¬ 
нием, строка, в которой следует произвести поиск, и переменная, в ко¬ 
торую будет записан массив с результатами. Единственное отличие со¬ 
стоит в том, что третий аргумент является обязательным, а массив все¬ 
гда многомерный. 

В четвертом аргументе допускается передавать либо значение констан¬ 
ты РВЕС_РАТТЕРМ_ОРШЕР, либо РРЕ0_ЗЕТ_0Н0ЕР. Если опустить четвертый ар¬ 
гумент, по умолчанию будет использоваться значение РПЕО_РАТТЕРМ_СШЕП. 

При использовании значения РРЕС_РАТТЕРМ_ОЯОЕЯ будет возвращаться 
массив, хранящий информацию об общем совпадении в нулевом элемен¬ 
те, а информацию о сохраняющих группах - в первом и последующих 
элементах. Массив будет иметь длину, равную числу сохраняющих 
групп плюс один. Тот же порядок построения массива используется 
в функции ргед_та1:сІз( ). Разница заключается в том, что вместо каждого 
элемента, хранящего строку с единственным совпадением, найденным 
функцией ргед_та1:сИ(), используются подмассивы со всеми совпадения¬ 
ми, найденными функцией ргед_таі:сІі_а11(). Длина каждого подмасси¬ 
ва совпадает со значением, возвращаемым функцией ргед_та1:с1і_а11(). 

Чтобы получить список всех совпадений с регулярным выражением 
в строке, отбросив совпадения с сохраняющими группами, следует ука¬ 
зать значение РРЕ6_РАТТЕРІ\І_0Р0ЕР и извлечь нулевой элемент массива. Ес¬ 
ли интерес представляет только текст совпадения с определенной со¬ 
храняющей группой, можно использовать значение РРЕС_РАТТЕРМ_ОРОЕР 
и номер сохраняющей группы. Например, после вызова ргед_та1:сІі_ 
а11(’%Іг1:1;р://([а-20-9. -]+)%’, $зиЬ]ес1: ) $гези11:) элемент $гези11:[1] будет хра¬ 
нить список доменных имен всех адресов ІІКЬ, имеющихся в испытуе¬ 
мой строке. 

Если указано значение РРЕС_ЗЕТ_0Р0ЕР, массив заполняется теми же 
строками, но несколько иным способом. Длина массива равна значе¬ 
нию, возвращаемому функцией ргед_таІсІі_а11(). Каждый элемент мас¬ 
сива представляет собой подмассив, нулевой элемент которого содер¬ 
жит совпадение со всем регулярным выражением, а первый и после¬ 
дующие элементы - совпадения с сохраняющими группами. Когда ука¬ 
зано значение РРЕ6_ЗЕТ_0Р0ЕР, элемент $гези11:[0] будет хранить тот же 
самый массив, что возвращает функция ргед_таі:сІп( ). 

Допускается комбинировать флаг РВЕС_0ЕЕЗЕТ_САРТ11ВЕ с флагом РРЕС_ 
РАТТЕЯМ_0Я0ЕР или РЯЕ0_ЗЕТ_0Я0ЕЯ. В этом случае возникает тот же эф¬ 
фект, что и при передаче флага РЯЕ0_0ЕЕЗЕТ_САРТ1)ЯЕ функции ргед_таЕс!і( ) 
в четвертом аргументе. То есть в каждом элементе массива содержится 
не строка, а массив из двух элементов, в которых хранятся строка сов¬ 
падения и смещение этого совпадения от начала испытуемой строки. 
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РегІ 

В рецепте 3.4 говорилось, что необходимо добавить модификатор /д, 
чтобы обеспечить возможность поиска в испытуемой строке несколь¬ 
ких совпадений с регулярным выражением. При использовании регу¬ 
лярного выражения с модификатором /д в списочном контексте оно бу¬ 
дет отыскивать и возвращать все совпадения в испытуемой строке. 
В данном рецепте списочный контекст обеспечивается переменной-спи¬ 
ском, расположенной слева от оператора присваивания. 

Если в регулярном выражении отсутствуют какие-либо сохраняющие 
группы, список будет содержать только совпадения со всем регуляр¬ 
ным выражением. Если в регулярном выражении присутствуют сохра¬ 
няющие группы, список будет содержать совпадения со всеми сохра¬ 
няющими группами для каждого совпадения с регулярным выражени¬ 
ем. Совпадение со всем регулярным выражением не включается в спи¬ 
сок, если выражение целиком не заключить в сохраняющую группу. 
Если необходимо получить список всех совпадений с регулярным выра¬ 
жением целиком, все сохраняющие группы следует заменить несохра¬ 
няющими. Обе разновидности группировки описываются в рецепте 2.9. 

РуіЬоп 

Поиск всех совпадений с регулярным выражением выполняет функция 
1"іпсІа11() из модуля ге. Первым аргументом функции передается регу¬ 
лярное выражение, а вторым — испытуемая строка. Параметры регу¬ 
лярного выражения можно передать функции в третьем необязатель¬ 
ном аргументе. 

Функция ге. 'ГіпсІа11( ) вызывает функцию ге.сотрі1е(), после чего вызы¬ 
вает метод 1"іпсіа11() объекта скомпилированного регулярного выраже¬ 
ния. Этот метод принимает единственный обязательный аргумент: ис¬ 
пытуемую строку. 

Метод 1"іпсІа11() имеет два необязательных аргумента, которые не под¬ 
держиваются глобальной функцией ге. 1 = іпс1а11( ). Вслед за испытуемой 
строкой можно передать позицию символа в строке, с которого метод 
1"іпс1а11() должен начинать поиск. Если опустить этот аргумент, поиск 
будет выполняться методом ^іпсіа11() во всей строке. Если указана на¬ 
чальная позиция поиска, можно также определить конечную позицию. 
Если конечная позиция не определена, поиск будет выполняться до 
конца строки. 

Независимо от того, с какими аргументами будет вызываться метод 
1чпс1а11(), в результате всегда будет возвращаться список всех найден¬ 
ных совпадений. Если в регулярном выражении имеются сохраняю¬ 
щие группы, метод вернет список кортежей, содержащих совпадения 
для всех сохраняющих групп для каждого совпадения с регулярным 
выражением. 
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КиЬу 

Метод зсап() класса Зігіпд принимает регулярное выражение в виде 
единственного аргумента. Он отыскивает в строке все совпадения с ре¬ 
гулярным выражением. Когда метод зсап() вызывается без блока, он 
возвращает массив всех совпадений с регулярным выражением. 

Если в регулярном выражении отсутствуют сохраняющие группы, ме¬ 
тод 5сап() возвратит массив строк. Каждый элемент этого массива соот¬ 
ветствует совпадению с регулярным выражением и содержит текст сов¬ 
падения. 

При наличии сохраняющих групп метод зсап( ) вернет массив массивов. 
Каждый элемент этого массива соответствует совпадению с регуляр¬ 
ным выражением и представляет собой массив с совпадениями для 
всех сохраняющих групп. В нулевом подэлементе будет храниться сов¬ 
падение с первой сохраняющей группой, в первом - со второй сохра¬ 
няющей группой и т. д. Совпадения со всем регулярным выражением не 
включаются в массив. Если необходимо включить совпадения со всем 
регулярным выражением, следует все регулярное выражение заклю¬ 
чить в одну сохраняющую группу. 

В языке КиЬу отсутствует возможность заставить метод зсап() возвра¬ 
щать массив строк, когда регулярное выражение содержит сохраняю¬ 
щие группы. Единственное решение заключается в том, чтобы заме¬ 
нить все именованные и нумерованные сохраняющие группы на несо¬ 
храняющие. 

См. также 

Рецепт 3.7, где показано, как получить фрагмент, фактически совпав¬ 
ший с регулярным выражением. 

Рецепт 3.11, где демонстрируется код, выполняющий обход всех совпа¬ 
дений, найденных регулярным выражением в испытуемой строке. 

Рецепт 3.12, где демонстрируется код, выполняющий обход всех совпа¬ 
дений, найденных регулярным выражением в испытуемой строке, и со¬ 
храняющий только те, которые соответствуют определенным крите¬ 
риям. 

3.11. Обход всех совпадений в цикле 

Задача 

В предыдущем рецепте рассказывалось, как многократно применить 
регулярное выражение к строке, чтобы получить список совпадений. 
Теперь требуется выполнить обход всех совпадений в цикле. 
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Решение 

с# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

МаісЬ таісЬВезиІі = Ведех. Маіісіі(зиЬ^есііЗІігіпд, @"\с!+"); 
мЬіІе ( таІісОРезиІІ;. Зиссезз) { 

// Здесь можно выполнить обработку очередного совпадения, 

// хранящегося в переменной таісЬВезиІі 
таісЬВезиІі = таІісІіРезиІІ:. №хіМаісЬ(); 

} 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Ведех: 

Ведех гедехОЬ] = пем Ведех^'Л^*” ); 
таІісІтВезиІІ: = гедехОЬ]. Ма1:сІ~і(зиЬдесіібі:гіпд ) ; 

\л/Мі1е (таісЬВезиІі. Зиссезз) { 

// Здесь можно выполнить обработку очередного совпадения, 

// хранящегося в переменной таісЬВезиІі 
таісЬВезиІі = таісЬВезиІі. №хіМаісЬ(); 

} 

ѴВ.МЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Оіт МаісЬВезиІі = Ведех.Ма1:с1т(ЗиЬ^есіЗі:гіпд, "\с!+") 

ІлІЬіІе МаісЬВезиІі. Зиссезз 

'Здесь можно выполнить обработку очередного совпадения, 

'хранящегося в переменной таісЬВезиІі 
МаІісЬВезиІІ: = МаісЬВезиІі. №хіМаісЬ 
ЕпсІ ІлІЬіІе 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Ведех: 

Оіт ВедехОЬ] Аз Ведех("\с1+") 

Оіт МаісЬВезиІі = ВедехОЬ;). МаісЬ(ЗиЬ]есіЗігіпд) 

ІлІЬіІе МаісЬВезиІі. Зиссезз 

'Здесь можно выполнить обработку очередного совпадения, 

'хранящегося в переменной таісЬВезиІі 
МаісЬВезиІі = МаісЬВезиІі.ИехіМаісЬ 
Епсі ІлІЬіІе 

.Іаѵа 

Раііегп гедех = Раііегп.сотрі1е("\\с1+''); 

МаісЬег гедехМаісЬег = гедех.таісЬег(зиЬ]есі5ігіпд); 

\л/Ьі1е (гедехМаісЬег. ііпс1()) { 

// Здесь можно выполнить обработку очередного совпадения, 
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// хранящегося в объекте гедехМаІхІіег 

} 

.ІаѵаЗсгірі 

Если совпадения с регулярным выражением могут иметь нулевую дли¬ 
ну или когда это заранее неизвестно, следует предусмотреть обработку 
проблем, связанных с различной для разных браузеров реакцией мето¬ 
да ехес() на совпадения с нулевой длиной: 

ѵаг гедех = ДсІ+/д ; 
ѵаг таіісіі = пиіі; 

мііііе (таіісіі = гедех. ехес(зиб]есіі) ) { 

// Не дать возможность браузерам попасть 
// в бесконечный цикл 

іТ ( таіісіі . іпсіех == гедех. Іазіііпсіех) гедех. 1аз*Іпс1ех++; 

// Здесь можно выполнить обработку очередного совпадения, 

// хранящегося в переменной таіісіі 

} 

Если заранее известно, что для регулярного выражения никогда не бу¬ 
дут обнаруживаться совпадения нулевой длины, можно выполнять ите¬ 
рации непосредственно по регулярному выражению: 

ѵаг гедех = /\сІ+/д; 
ѵаг таІісО = пиіі; 

ѵѵОіІе (таіісіі = гедех.ехес(зиЬ]ес1і)) { 

// Здесь можно выполнить обработку очередного совпадения, 

// хранящегося в переменной таіісіі 

} 

ХКедЕхр 

При использовании библиотеки ХКедЕхр для обхода всех совпадений 
можно применить специализированный метод ХРедЕхр. ^огЕас!і( ): 

ХПедЕхр. -ГогЕасІі(зиЬ]ес1і, ДсІ+/. 'ГипсІііоп(таІісІі) { 

// Здесь можно выполнить обработку очередного совпадения, 

// хранящегося в аргументе та^сіі 

}); 

РНР 

ргед_та1ісІі_а11( '/\б+/', $зиЬзесЕ, $ гезиііі , РВЕС_РАТТЕЙМ_(ШЕВ); 

Еог ($і = 0; $і < соипЕ( $гези11і[0]): $і++) { 

# Текст совпадения = $гези11і[0][$і]; 

} 

РегІ 

мбііе ($зиЬ]ес1; =" ш/\сІ+/д) { 

# текст совпадения = $& 

> 
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РуіИоп 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать глобальную функцию: 

■Гог таІісИоЬ] іп ге. ГіпсІі1:ег( гДсН", зи^ес*): 

# Здесь можно выполнить обработку очередного совпадения, 

# хранящегося в переменной таГсбоб] 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект скомпили¬ 
рованного регулярного выражения: 

геоЬ^ = ге. сотрі1е( г"\сІ+") 

Гог таГсІюЬ] іп геоЬ]. ГіпсІіГегСзиЬзесІ:) : 

# Здесь можно выполнить обработку очередного совпадения, 

# хранящегося в переменной таГсбоб] 


КиЬу 

зиЬзесГ.зсап(/\с!+/) {1 таІсГі | 

# Здесь можно выполнить обработку очередного совпадения, 

# хранящегося в переменной таГсб 

} 

Обсуждение 

.ЫЕТ 

В рецепте 3.7 описывалось, как с помощью функции-члена МаІсб() клас¬ 
са Недех получить первое совпадение с регулярным выражением. Чтобы 
обойти в цикле все совпадения, имеющиеся в строке, необходимо снова 
вызвать функцию МаГсбО для получения информации о первом совпаде¬ 
нии. Функция МаГсб() возвращает экземпляр класса МаГсб, который 
в представленном решении сохраняется в переменной таГсбВезиІІ:. Если 
свойство Зиссезз объекта таГсбВезиИ: содержит значение Г те, можно на¬ 
чинать итерации. 

В начале цикла можно использовать свойства объекта МаГсб для получе¬ 
ния информации о первом совпадении. В рецепте 3.7 описывается свой¬ 
ство Ѵаіие, в рецепте 3.8 - свойства Іпсіех и 1_епд1:б и в рецепте 3.9 - свой¬ 
ство-коллекция Огоирз. 

Закончив работу с первым совпадением, можно вызвать функцию-член 
№хГМа1:сб() относительно переменной таГсбВезиІГ. Функция МаГсб.№х1> 
МаГсбО возвращает экземпляр класса Маісб, как и функция Редех.МаГсбО. 
Вновь созданный экземпляр хранит информацию о втором совпадении. 

Присваивание результата, полученного при вызове таГсбРезиЮехГ- 
МаГсбО, одной и той же переменной таГсбРезиІГ упрощает обход всех сов¬ 
падений. Каждый раз в цикле выполняется проверка значений свойст¬ 
ва таГсбРезііИ:. Зиссезз, чтобы убедиться, что функция МехГМаГсбО дейст¬ 
вительно обнаружила еще одно совпадение. Когда функция №х1:МаГсб() 
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терпит неудачу, она все равно возвращает объект Маіісіі, но в этом случае 
его свойство Зиссезз будет иметь значение ^аізе. Используя одну и ту же 
переменную шаІісІіРІезиІІ:, нам удалось совместить в одной инструкции 
\л/И ііе проверку наличия первого совпадения с проверками наличия всех 
последующих совпадений после обращений к функции ИехІіМаІісІл (). 

Функция ИехІіМаІісІіО не изменяет объект Маіхіі, относительно которого 
она вызывается. В случае необходимости можно сохранять объекты 
Маісіі для каждого совпадения с регулярным выражением. 

Метод ИехІіМаІісІл () не имеет аргументов. Он использует то же регулярное 
выражение и испытуемую строку, которые передавались методу Недех. 
МаІсН(). Объект Ма^сіі сохраняет ссылки на регулярное выражение и ис¬ 
пытуемую строку. 

Статическую версию метода Редех. МаЮП() можно использовать, даже ко¬ 
гда испытуемая строка содержит очень большое число совпадений с ре¬ 
гулярным выражением. Метод Ведех. Маіісіл () скомпилирует регулярное 
выражение всего один раз, а возвращаемый объект Маіхіі будет хранить 
ссылку на скомпилированное регулярное выражение. Метод Маіісіл . №х1> 
Ма1хП() использует это скомпилированное ранее регулярное выраже¬ 
ние, на которое ссылается объект Маісіі, даже если вызывался статиче¬ 
ский метод Редех. Маіхіі (). Создавать экземпляр класса Редех действи¬ 
тельно необходимо, только если метод Редех. МаІхііО требуется вызывать 
многократно (например, чтобы применить одно и то же регулярное вы¬ 
ражение к большому числу строк). 

^ѵа 

Обход всех совпадений в языке ^ѵа реализуется очень просто. Доста¬ 
точно просто в цикле \л/Іпі1е вызывать метод 1"іпсІ(), представленный в ре¬ 
цепте 3.7. Каждый вызов метода 1"іпсІ() обновляет информацию, храня¬ 
щуюся в объекте Маісііег, сведениями о совпадении и о позиции, откуда 
должна начинаться следующая попытка сопоставления. 

Іаѵа5сгір{ 

Если возникнет потребность использовать регулярное выражение в цик¬ 
ле, не забудьте указать флаг /д. Назначение этого флага разъяснялось 
в рецепте 3.4. Цикл мііііе (гедехр.ехесО) отыскивает все числа в испытуе¬ 
мой строке, когда гедехр = /\с!+/д- Если бы регулярное выражение имело 
вид /\сі+Л то цикл мііііе (гедехр.ехесО) находил бы первое число в строке 
снова и снова, пока не произошло бы аварийное завершение сценария 
или пока сценарий не был бы принудительно завершен браузером. 

Примечательно, что цикл мііііе (/\сі+/д .ехес()) (в котором используется 
литерал регулярного выражения с флагом /д) также превратился бы 
в бесконечный цикл, по крайней мере, в некоторых реализациях ^ѵа- 
8сгірѣ, потому что регулярное выражение компилировалось бы заново 
в каждой итерации цикла мііііе. Когда выполняется компиляция регу¬ 
лярного выражения, начальная позиция для предстоящей попытки со- 
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поставления сбрасывается в начало строки. Присваивание регулярного 
выражения переменной за пределами цикла гарантирует, что оно будет 
скомпилировано всего один раз. 

Объект, возвращаемый методом гедехр.ехесО, описывается в рецеп¬ 
тах 3.8 и 3.9. Это один и тот же объект, даже когда метод ехес() вызыва¬ 
ется в цикле. Допускается делать с этим объектом все, что потребуется. 

Единственный эффект действия флага /д заключается в обновлении зна¬ 
чения свойства Іазіііпсіех объекта гедехр, чей метод ехес() вызывается. 
Этот эффект действует даже при использовании литерала регулярного 
выражения, как показано во втором решении для этого рецепта. При 
каждом последующем обращении к методу ехес() попытка сопоставле¬ 
ния начинается с позиции ІазІІпсіех. Если присвоить свойству Іазіііпсіех 
новое значение, попытка сопоставления начнется с указанной позиции. 

Однако со свойством Іазіііпсіех связана одна очень существенная пробле¬ 
ма. Если понимать стандарт ЕСМА-262ѵЗ для ^ѵаЕсгірі; буквально, то 
метод ехес() должен записывать в свойство Іазіііпсіех позицию первого 
символа, следующего за совпадением. Это означает, что когда совпаде¬ 
ние имеет нулевую длину, следующая попытка сопоставления должна 
начинаться с позиции, где только что было найдено совпадение, что 
в результате приводит к бесконечному циклу. 

Все современные браузеры реализуют стандарт так, как написано, а это 
означает, что при использовании метода гедехр.ехесО можно попасть 
в бесконечный цикл. А ведь такой исход весьма вероятен. Например, 
для обхода всех строк в многострочном тексте можно использовать ин¬ 
струкции ге = /~.*$/дт; мііііе (ге.ехесО), но если в тексте имеется пус¬ 
тая строка, сценарий «споткнется» о нее. 

Решение проблемы состоит в том, чтобы увеличивать на 1 значение 
свойства Іазіііпсіех, если функция ехес() этого еще не сделала. Как это 
делается, показано в первом решении для ^ѵа8сгірІ. Если вы не знаете, 
как могут развиваться события, просто вставьте эту строку программ¬ 
ного кода и вы будете застрахованы от этой проблемы. 

В старых версиях Іпіегпеі; Ехріогег эта проблема решалась увеличени¬ 
ем свойства Іазіііпсіех на единицу, если совпадение имеет нулевую дли¬ 
ну. В Іпіегпеі Ехріогег 9 это необходимо делать только при работе в ре¬ 
жиме совместимости (диігкз тосіе). Именно по этой причине в рецеп¬ 
те 3.7 говорилось о невозможности использовать свойство Іазіііпсіех для 
определения конца совпадения - Іпіегпеі Ехріогег возвращает непра¬ 
вильные значения при работе в режиме совместимости. 

Все остальные механизмы регулярных выражений, рассматриваемые 
в этой книге, решают эту проблему, автоматически начиная следующую 
попытку сопоставления со следующего символа в строке, если преды¬ 
дущее совпадение имело нулевую длину. 

Данная проблема не проявляется при использовании метода зігіпд. 
гер1асе() (рецепт 3.14) или при поиске всех совпадений с помощью метода 
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зІгіпд.таІсІіО (рецепт 3.10). Для этих методов, внутренняя реализация 
которых использует свойство Іазіііпсіех, стандарт ЕСМА-262ѵЗ оговари¬ 
вает, что значение Іазіііпсіех должно увеличиваться на 1 при каждом 
совпадении нулевой длины. 

ХКедЕхр 

При использовании ^ѵаЗсгірѣ-библиотеки ХКедЕхр можно здорово 
облегчить себе жизнь, применяя специализированный метод ХПедЕхр. 
ІогЕасНО. Передайте этому методу испытуемую строку, регулярное вы¬ 
ражение и функцию обратного вызова, и он вызовет вашу функцию для 
каждого найденного совпадения. Функции обратного вызова будут пе¬ 
реданы в виде параметров: массив совпадений, индекс текущего совпа¬ 
дения (счет начинается с нуля), испытуемая строка и регулярное выра¬ 
жение. Если методу ХРедЕхр. 1 = огЕасІп( ) передать четвертый параметр, он 
будет использоваться как контекст для передачи функции обратного 
вызова и будет возвращен методом ХПедЕхр.ЕогЕасІ'іО после завершения 
поиска совпадений. 

Метод ХПедЕхр.ЕогЕасМО игнорирует свойства дІоЬаІ и Іазіііпсіех переда¬ 
ваемого ему объекта РедЕхр. Он всегда выполняет итерации по всем со¬ 
впадениям. Используйте ХРедЕхр.ЕогЕас(і(), чтобы надежно решить лю¬ 
бые проблемы, связанные с совпадениями нулевой длины. 

В библиотеке ХКедЕхр также имеется собственный метод ХПедЕхр.ехес(). 
Он игнорирует свойство Іазіііпсіех. Вместо этого в третьем необязатель¬ 
ном параметре ему можно передать позицию, с которой следует начи¬ 
нать попытки сопоставления. Чтобы найти следующее совпадение, до¬ 
статочно указать позицию, где закончилось предыдущее совпадение. 
Если оно имеет нулевую длину, следует передать позицию конца пре¬ 
дыдущего совпадения плюс 1. 


Функция ргед_та1:сІі() принимает пятый необязательный аргумент, 
определяющий позицию в строке, откуда следует начинать попытки со¬ 
поставления. Для решения поставленной задачи можно было бы адап¬ 
тировать решение из рецепта 3.8 и передавать функции ргед_та!сІі() 
сумму $таІсІі 5 Ііаг{: + $таІсІі1епд1іІі в виде пятого аргумента при попытке 
найти второе совпадение в строке и продолжать повторять то же самое 
в третьей и последующих попытках, пока ргед_таІсІі() не вернет 0. Этот 
прием используется в рецепте 3.18. 

В дополнение к необходимости вычислять в программном коде началь¬ 
ное смещение для каждой попытки сопоставления многократное обра¬ 
щение к функции ргед_шаІсІі( ) само по себе неэффективно из-за отсутст¬ 
вия возможности сохранять скомпилированное регулярное выражение 
в переменной. Функция ргед_шаІсІі() вынуждена искать скомпилиро¬ 
ванное регулярное выражение в своем кэше при каждом вызове. 
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Более простое и более эффективное решение заключается в использова¬ 
нии функции ргед_та^сІі_а11(), как описано в предыдущем рецепте, 
и выполнении итераций в массиве с результатами сопоставления. 

РегІ 

В рецепте 3.4 говорилось, что в регулярное выражение необходимо до¬ 
бавить модификатор /д, чтобы отыскать в испытуемой строке все совпа¬ 
дения. Если регулярное выражение с модификатором /д используется 
в скалярном контексте, следующая попытка сопоставления будет начи¬ 
наться в конце предыдущего совпадения. В этом рецепте инструкция 
\л/Иі1е обеспечивает скалярный контекст. Все специальные переменные, 
такие как $& (описываются в рецепте 3.7), существуют только в области 
видимости цикла мііііе. 

РуіНоп 

Функция 'Гіпсіііег () из модуля ге возвращает итератор, который может 
использоваться для поиска всех совпадений с регулярным выражени¬ 
ем. Первым аргументом эта функция принимает регулярное выраже¬ 
ние, а вторым - испытуемую строку. Параметры регулярного выраже¬ 
ния могут передаваться в третьем необязательном аргументе. 

Функция ге.Гіпс1і1:ег() вызывает функцию ге.сотрі1е(), после чего вызы¬ 
вает метод ГіпсІі1:ег() объекта скомпилированного регулярного выраже¬ 
ния. Этот метод имеет единственный обязательный аргумент — испыту¬ 
емую строку. 

Метод ГіпсШегО принимает два необязательных аргумента, которые не 
поддерживаются глобальной функцией ге.Гіпс1і1:ег(). Вслед за аргумен¬ 
том с испытуемой строкой можно передать позицию символа в строке, 
откуда метод ГіпсІі1:ег() должен начинать поиск. Если этот аргумент от¬ 
сутствует, поиск будет выполняться во всей строке. Если указана на¬ 
чальная позиция, то можно указать и конечную позицию. Если конеч¬ 
ная позиция не определена, поиск выполняется до конца строки. 

КиЬу 

Метод зсап() класса Зігіпд принимает регулярное выражение в виде 
единственного аргумента и выполняет обход всех совпадений с регуляр¬ 
ным выражением в строке. При вызове с блоком появляется возмож¬ 
ность обрабатывать каждое совпадение, как только оно будет найдено. 

Если регулярное выражение не содержит сохраняющих групп, в блоке 
следует указать только одну переменную цикла. Эта переменная будет 
принимать текст совпадения с регулярным выражением. 

Если регулярное выражение содержит одну или более сохраняющих 
групп, необходимо указать по одной переменной для каждой группы. 
Первая переменная будет принимать текст совпадения с первой сохра¬ 
няющей группой, вторая переменная - со второй сохраняющей группой 
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и т. д. Ни в одну из переменных не будет записываться совпадение со 
всем регулярным выражением. Если необходимо включить совпадение 
со всем регулярным выражением, его следует заключить в дополни¬ 
тельную сохраняющую группу. 

зиЬ^есі:. зсап(/(а)(Ь)(с)/) {|а, Ь, с| 

# а, Ь и с хранят совпадения с тремя сохраняющими группами 

} 

Если переменных указано меньше, чем сохраняющих групп в регуляр¬ 
ном выражении, получить доступ можно будет только к группам, для 
которых имеются переменные. Если переменных указано больше, чем 
сохраняющих групп, в лишние переменные будет записываться значе¬ 
ние ПІ1. 

Если указана только одна переменная цикла, тогда как в регулярном 
выражении имеется одна или более сохраняющих групп, переменная 
будет заполняться массивом строк. Каждая строка в массиве будет соот¬ 
ветствовать сохраняющей группе. Если в выражении имеется всего одна 
сохраняющая группа, массив будет состоять из единственного элемента: 

зиЬ]есі:.зсап(/(а)(Ь)(с)/) {|аЬс| 

# в элементах аЬс[0], аЬс[1] и аЬс[2] хранится текст 

# совпадений с тремя сохраняющими группами 

} 

См. также 

Рецепт 3.12, который дополняет этот рецепт и демонстрирует извлече¬ 
ние только совпадений, соответствующих определенным критериям. 

Рецепт 3.7, где показано, как получить только первое совпадение с регу¬ 
лярным выражением. 

Рецепт 3.8, где демонстрируется код, определяющий позицию и длину 
совпадения. 

Рецепт 3.10, где демонстрируется код, извлекающий список всех совпа¬ 
дений, которые были найдены регулярным выражением в испытуемой 
строке. 

Рецепт 3.22, где рассказывается, как сконструировать простой парсер, 
выполняющий итерации по всем совпадениям с регулярным выраже¬ 
нием. 

3.12. Проверка полученных совпадений 
в программном коде 

Задача 

В рецепте 3.10 показано, как получить список всех совпадений с регу¬ 
лярным выражением, применяя его к фрагменту строки, остающемуся 
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после каждого сопоставления. Теперь требуется получить список со¬ 
впадений, удовлетворяющих некоторому критерию, который невоз¬ 
можно (достаточно просто) выразить в виде регулярного выражения. 
Например, при получении списка счастливых номеров требуется оста¬ 
вить только те, которые без остатка делятся на 13. 

Решение 

С# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

ЗГгіпдСоІІесГіоп гезиІНізГ = пем 31: гіпдСоІІесІіоп (); 

МаГсМ таѣсГіРезиІІ: = Редех.Маі:сІі(зиЬ^есі:3'Ьгіпд, @"\сІ+”); 

\л/Мі1е (таісІіВезиІГ. Зиссезз) { 

іГ (іпі:. Рагзе(таІісГіРІезиІІ:. Ѵаіие) % 13 == 0) { 
гезиІНізГ. АсІсІ (таІісГіРезиІІ:. Ѵаіие); 

> 

таГсОВезиІГ = таІісМЯезиІІ:. Мех1:Ма1:сГі(); 

} 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Редех: 

ЗГгіпдСоІІесГіоп гезиІНізГ = пеѵѵ 31:гіпдСоІІесІііоп(); 

Недех гедехОЬ] = пеѵі Редех(@”\с1+"); 
таІісИВезиІІ: = гедехОЬ]. МаІісГі(зиЬ^ есІіЗІ:гіпд); 
ѵі/ШІе (таІісГіРезиІІ:. Зиссезз) { 

іГ (іпі:. Рагзе(таІісГіРезиІІ:. Ѵаіие) % 13 == 0) { 
гезиІПізГ. АсІсІ (таІсОРезиІІ:. Ѵаіие); 

> 

таГсІіВезиІГ = таГсйВезиІГ. МехІМаІісГі (); 

} 

ѴВ.МЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Оіт ВезиІПізГ = №\л/ ЗГгіпдСоІІесГіоп 

Оіт МаІсГіВезиІІ: = Ведех.МаІісГі(ЗиЬ^есІЗі:гіпд, ”\сІ+") 

Іл/Мііе МаГсОВезиІГ.Зиссезз 

ІГ ІпГедег. Рагзе(МаГсІлВези1Г. Ѵаіие) МосІ 13 = 0 ТГіеп 
ВезиІПізГ. АсІсІ (МаГсІіВезиІГ. Ѵаіие) 

ЕпсІ ІГ 

МаГсИВезиІГ = МаГсОВезиІГ. МехГМаГсІі 
ЕпсІ ІШІе 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Редех: 

Оіт ВезиІПізГ = ЗГгіпдСоІІесГіоп 
Оіт ВедехОЬ] Аз №\ѵ Ведех("\сі+") 
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Оіт МаІісОПезиІІ: = РедехОЬ]. МаісІі(ЗиЬ]есГ5Ггіпд) 

\лПпі1е МаІісМВезиІІ: . Зиссезз 

ІГ Іпііедег. Рагзе(Ма1:сІпВези11:. Ѵаіие) Мосі 13 = 0 ТОеп 
ПезиІПізІ:. Асісі (МаІісІпВезиІІ:. Ѵаіие) 

ЕпсІ II 

МаГсНРезиИ = МаісННезиІГ. НехГМаГсР 
ЕпсІ МРіІе 

.Іаѵа 

Из1:<31:гіпд> гезиІПізі = пем АггауИзІіОІ:гіпд>(); 

РаГГегп гедех = РаГГегп. сотрі1е(*’\\с!+”); 

МаГсНег гедехМаГсНег = гедех.таГсІпег(5иЬ]есГ5Ггіпд); 
ѵѵііііе (гедехМаІісІпег. ГіпсІ()) { 

іГ (ІпГедег. рагзеіпі:(гедехМаГсНег. дгоир()) % 13 == 0) { 
гезиІПізГ. асісі (гедехМаГсНег. дгоир()); 

} 

} 

.ІаѵаЗсгірі 

ѵаг ІізГ = []; 
ѵаг гедех = /\сі+/д; 
ѵаг таГсП = пиіі; 

\ѵМііе (таГсіі = гедех.ехес(зиЬ]есГ)) { 

// Не позволять браузерам, попадать в бесконечный цикл 
іГ (таГсН. іпбех == гедех. ІазГІпсіех) гедех.1азГІпсІех++; 

// Здесь можно обработать совпадение, хранящееся в переменной таГсП 
іГ (таГсН[0] % 13 == 0) { 

Іізі. ризН(таісІі[0]); 

} 

} 

ХКедЕхр 

ѵаг Іізі = []; 

ХНедЕхр. ГогЕасІі(зиЬ]есГ, /\сі+/. ГипсГіоп(таГсІі) { 
іГ (таГсіі[0] % 13 == 0) { 

Іізі.ризІ’і(таГсІ’і[0]); 

} 

}); 

РНР 

ргед_таГсН_а11( ’/\сі+/’, $зиЬ]есГ, $таГсІ"ісіаГа, РВЕ0_РАТТЕПМ_0РЮЕВ); 

Гог ($і = 0; $і < соипГ($таГсНсіаГа[0]); $і++) { 
іГ ($таГсІісІаГа[0][$і] % 13 == 0) { 

$1ізГ[] = $таГсІісіаГа[0][$і]; 

} 

} 

РегІ 

иііііе ($зиЬ]ес1: =' т/\сІ+/д) { 
і1= ($& % 13 == 0) { 
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ризГі(@1із1: , $&); 

} 

} 

РуіЬоп 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать глобальную функцию: 

іізг = [] 

Гог таГсІюЬ] іп ге. Гіпс1іГег( г"\сі+", зиЬ^есГ): 

ІГ іпГ(таГсНоЬ;і. дгоир()) % 13 == 0: 

ІізГ. аррепсі(таІісМоЬ^. дгоир()) 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект скомпили¬ 
рованного регулярного выражения: 

ІІЗГ = [] 

геоЬ^ = ге. сотрі1е( г"\сІ+") 

Гог паГсПоЬ] іп геоЬ]. ГіпсІіГег(5иЬіесГ) : 
іГ іпГ(таГсГюЬ] .дгоир()) % 13 == 0: 

ІізГ. аррепсі(таІісИоЬз. дгоирО) 

КиЬу 

Изг = [] 

зиЬ^есГ. зсап (/\сІ+/) {|таГсГі| 

ІізГ « таГсй іГ (ІпГедег(таГсГ) % 13 == 0) 

} 

Обсуждение 

Регулярное выражение имеет дело с текстом. Хотя регулярному выра¬ 
жению <\сІ+> соответствует то, что мы называем числами, для механиз¬ 
ма регулярных выражений это просто строки, состоящие из одной или 
более цифр. 

Если требуется отыскать какие-то определенные числа, например чис¬ 
ла, кратные 13, намного проще написать универсальное регулярное вы¬ 
ражение, отыскивающее совпадения со всеми числами, а затем доба¬ 
вить немного программного кода, который будет отбрасывать совпаде¬ 
ния, не представляющие интереса. 

Все решения для этого рецепта основаны на решениях из предыдуще¬ 
го рецепта, где демонстрируется, как выполнять обход всех совпаде¬ 
ний. Совпадение с регулярным выражением внутри цикла преобразу¬ 
ется в число. 

Некоторые языки программирования делают это автоматически, другие 
требуют явно вызвать функцию, которая преобразует строку в число. Да¬ 
лее проверяется, делится ли целое число на 13 без остатка. Если делится, 
совпадение добавляется в список. Если нет, совпадение пропускается. 
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См. также 

Рецепт 3.12, использовавшийся в качестве основы для данного рецеп¬ 
та. В нем описывается, как выполнять итерации по найденным совпа¬ 
дениям. 

Рецепт 3.7, где показано, как получить только первое совпадение с регу¬ 
лярным выражением. 

Рецепт 3.8, где демонстрируется код, определяющий позицию и длину 
совпадения. 

Рецепт 3.10, где демонстрируется код, извлекающий список всех совпа¬ 
дений, которые были найдены регулярным выражением в испытуемой 
строке. 

3.13. Поиск совпадения 
внутри другого совпадения 

Задача 

Необходимо отыскать все совпадения с определенным регулярным вы¬ 
ражением, но только внутри некоторого раздела испытуемой строки. 
Имеется еще одно регулярное выражение, которому соответствуют все 
разделы в строке. 

Допустим, что имеется файл НТМЬ, в котором различные сообщения 
выводятся жирным шрифтом с помощью тегов <Ь>. Необходимо оты¬ 
скать все числа, заключенные в этот тег. Если текст, заключенный в тег 
<Ь> содержит несколько чисел, все они должны рассматриваться как от¬ 
дельные совпадения. Например, для строки 1 <Ь>2</Ь> 3 4 <Ь>5 6 7</Ь> 
должно быть найдено четыре совпадения: 2, 5, 6 и 7. 

Решение 

С# 

31: гіпдСоІІесІііоп гезиііі-ізі: = пеѵѵ ЗІгіпдСоІІесНопО; 

Яедех оиіегРедех = пем Редех(”<Ь>(.*?)</Ь>", РедехОрііопз.Зіпдіеііпе); 

Редех іппегРедех = пем Редех(@"\с1+"); 

// Найти первый раздел 

Маіісіл оиіегМаісН = оиіе гРедех . Маіісіі(зиЬзесІіЗі:гіпд); 

\л/Ні1е (оиіегМаІісІ'і. Зиссезз) { 

// Получить совпадения внутри раздела 

МаісН іппегМаІісІп = іппегРедех. Маіісіі(оиііегМаІісР. 6гоирз[ 1 ]. Ѵаіие); 
ѵѵНіІе (іппегМаісН.Зиссезз) { 

гезиИНзі. АйсКіппегМаІсІі. Ѵаіие); 
іппегМаісН = іппегМаісН. МехіМаісІі(); 

} 

// Найти следующий раздел 
оиіегМаІісН = оиііе гМаІісІт. ИехІіМаІісМ (); 

} 
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ѴВ.МЕТ 

Оіт Везиіііізі = №ѵ/ 31:гіпдСоІІесІііоп 

Оіт ОиіегВедех Аз №ѵ\/ Ведех(”<Ь>(.*?)</Ь>", ВедехОрІііопз. Зіпдіеііпе) 

Оіт ІппегВедех Аз Ме\л/ Ведех("\сІ+") 

'Найти первый раздел 

Оіт ОиіегМаісН = ОиіегВедех.МаісН(ЗиЬ]есіЗігіпд) 

Іл/Ііііе ОиіегМаісН.Зиссезз 

'Получить совпадения внутри раздела 

Оіт ІппегМаісН = ІппегВедех.МаісІ'НОиіегМаісІ'і.0гоирз(1).Ѵаіие) 

ІА/Пііе ІппегМаісП.Зиссезз 

Везиіііізі. Асісі (ІппегМаісП. Ѵаіие) 

ІппегМаісН = ІппегМаісН.МехіМаісН 
ЕпР ІлІПіІе 

ОиіегМаісН = ОиіегМаісН.МехіМаісН 
ЕпР МНіІе 

іаѵа 

Проще всего реализовать итерации можно с использованием двух объ¬ 
ектов совпадений, и этот прием будет работать в версии ^ѵа 4 и выше: 

Іізі<3ігіпд> гезиіііізі = пем Аггау1ізі<3ігіпд>( ); 

Раііегп оиіегВедех = Раііегп. сотрі1е(”<Ь>(. *?)</Ь>", Раііегп. ООТАИ); 

Раііегп ІппегВедех = Раііегп. сотрПе(”\\й+”); 

МаісНег оиіегМаісНег = оиіегВедех.таісНег(зиЬ]есі8ігіпд); 
мііііе (оиіегМаісНег. 1іп<і()) { 

МаісНег іппегМаісПег = ІппегВедех. таісііег(оиіегМаісНег. дгоир(1)); 
ѵѵ/іпііе (іппегМаісНег. ііпсІ()) { 

гезиІіПзі. асісі (іппе гМаісПе г. дгоир()); 

} 

} 

Следующий фрагмент обладает большей эффективностью (потому что 
объект іппегМаісОег создается всего один раз), но он будет работать толь¬ 
ко в версии ^ѵа 5 или выше: 

Ьізі<3ігіпд> гезиіііізі = пем АггауІ_ізі<5ігіпд>(); 

Раііегп оиіегВедех = Раііегп.сотрі1е(”<Ь>(.*?)</Ь>", Раііегп. ООТАИ); 

Раііегп ІппегВедех = Раііегп.сотрі1е("\\сІ+"); 

МаісНег оиіегМаісНег = оиіегВедех.таісііег(зиЬ]есі8ігіпд); 

МаісПег іппегМаісНег = ІппегВедех.таісИег(зиЬ]есіЗігіпд); 
ѵѵПіІе (оиіегМаісНег.ііпсі()) { 

іппегМаісПег. гедіоп(оиіегМаісПег.зіагі(І), оиіегМаісНег.епсІ(І)); 
ѵѵПіІе (іппегМаісІіег.ііпсІО) { 

гезиіііізі. асісі (іппегМаісііег. дгоир()); 

} 

} 

.ІаѵаБсгірІ 

ѵаг гезиіі = []; 

ѵаг оиіегВедех = /<Ь>([\з\3]*?)<\/Ь>/д; 
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ѵаг іппегРедех = /\сІ+/д ; 
ѵаг оиІегМаІсІі; 
ѵаг іппегМаІісІпез; 

ѵѵіпііе (оиііегМаІісІт = оиІегВедех.ехес(5иЬ]ес1)) { 
іі (оиІегМаІсП. іпсіех == оиІегВедех. Іазііпсіех) 
оиІегВедех. 1аз1Іпсіех++; 

іппегМаІсІ'іез = ои1:егМа1;сМ[ 1 ]. таіісіп (іппегРедех); 
іі (іппегМаісІіез) { 

гезиіі = гезиіі. сопсаі: (іппегМаІісМез); 

} 

} 

ХКедЕхр 

В библиотеке ХКедЕхр имеется метод таІісІпСІпаіп(), специально предна¬ 
значенный для поиска совпадений с одним регулярным выражением 
внутри совпадений с другим регулярным выражением: 

ѵаг гезиіі: = ХВедЕхр. таІісИСПаіп (зиЬ^ есі: , [ 

{гедех: ХПедЕхр(”<Ь>(.*?)</Ь>", "з"), Ьаскгеі: 1}, 

ДсІ+/ 

]); 

Другое решение задачи, похожее на стандартное решение в ^ѵаЗсгірІ, 
основано на использовании метода ХНедЕхр.іогЕасІі(): 

ѵаг гезиіі = []; 

ѵаг оиІегВедех = ХВедЕхр("<р>(.*?)</Ь>", "з"); 
ѵаг іппегНедех = ДсІ+/д ; 

ХВедЕхр."Го гЕасІт (зиЬд есі: , оиІегВедех, іипсііоп(оиіегМаісІі) { 
ѵаг іппегМаісІпез = оиіегМа1:сИ[ 1 ]. та1:сІі(іппегРедех); 
іі (іппегМаісІіез) { 

гезиіі = гезиіі. сопсаІ(іппегМаІсІ'іез); 

} 

}); 

РНР 

$1із1 = аггауО; 

ргед_та!сИ_а11(’%<&>(.*?)</Ь>%з', $зиЬ]ес1, $ои1егта1сИез, 

РПЕО_РАТТЕПМ_ОРЮЕЯ); 

Іо г ($і = 0; $і < соипі($ои!егта1сІпез[0]); $і++) { 

іі (ргед_таісй_а11( ’/\с1+/', $ои!егтаЮІтез[ 1 ][$і], $іппегтаісіез, 

РВЕ6_РАТТЕЯМ_0Я0ЕВ)) { 

$1із1 = аггау_тегде($1із1, $іппегта1с1гез[0]); 

} 

} 

РегІ 

\л/Ііі1е ($зиЬ]ес! =~ т! <Ь>(. *?)</Ь>! дз) { 
ризІл(@1із1, ($& =~ тДСНУд)); 

} 
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Этот фрагмент будет работать, только если внутреннее регулярное вы¬ 
ражение (<\сі+> в данном примере) не содержит сохраняющих групп, по¬ 
этому следует использовать несохраняющую группировку. Подробнее 
об этом рассказывается в рецепте 2.9. 

РуіНоп 

Из* = [] 

іппегге = ге. сотрі1е( г"\сІ+") 

Гог оиГегтаГсР іп ге. ГіпсІіГег( "(?з)<Ь>(. *?)</Ь>”, зиЬ]есГ): 

ІізГ. ехГепсК іппегге. ГіпсіаІЦоиГегіпаГсіі. дгоир(І))) 


КиЬу 

Из* = [] 

зиЬ]есГ.зсап(/<Ь>(.*?)<\/Ь>/т) {|оиГегдгоирз| 

ІізГ += оиГегдгоирз[1].зсап(/\Р+/) 

} 

Обсуждение 

Регулярные выражения прекрасно подходят для выделения лексем из 
текста, но они плохо подходят для парсинга текста. Под выделением 
лексем здесь понимается идентификация различных частей строки, 
таких как числа, слова, символы, теги, комментарии и пр. Регулярное 
выражение выполняет сканирование строки слева направо и пытается 
отыскать соответствие, опробуя разные альтернативы и различные ко¬ 
личества символов. С такой работой регулярные выражения справля¬ 
ются просто прекрасно. 

Под парсингом понимается процесс выявления взаимоотношений меж¬ 
ду лексемами. Например, в языках программирования комбинации 
лексем формируют инструкции, функции, классы, пространства имен 
и пр. Отслеживание назначения лексем внутри широкого контекста луч¬ 
ше реализовать в программном коде. В частности, регулярные выраже¬ 
ния не в состоянии отслеживать нелинейный контекст, например вло¬ 
женные конструкции. 1 

Поиск одной лексемы внутри другой лексемы часто пытаются реализо¬ 
вать с помощью регулярных выражений. Пара НТМЬ-тегов <Ь> отыски¬ 
вается с помощью простого регулярного выражения <<іэ>(. *?)</Ь>>. 2 Числа 


1 В некоторых современных диалектах регулярных выражений была пред¬ 
принята попытка ввести средства сбалансированного, или рекурсивного со¬ 
поставления. Однако применение этих средств приводит к настолько слож¬ 
ным регулярным выражениям, что это лишний раз подтверждает мое заме¬ 
чание о том, что парсинг лучше всего выполнять с помощью программного 
кода. 

2 Чтобы иметь возможность идентифицировать тег, располагающийся на не¬ 
скольких строках, следует включить режим «точке соответствуют границы 
строк». Для ^ѵаЗсгірГ можно воспользоваться выражением <<Ь>([\з\3]*?)</Ь>>. 
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отыскиваются с помощью еще более простого регулярного выражения 
<\сІ+>. Но если попытаться объединить эти два выражения в одно, можно 
в результате получить нечто совсем иное: 

\сІ+(?=(? : (?! <Ь>). )*</Ь>) 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаВсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

Хотя это регулярное выражение решает задачу, поставленную в данном 
рецепте, понять его будет очень непросто. Даже знаток регулярных вы¬ 
ражений должен будет тщательнейшим образом исследовать его, чтобы 
понять, что оно делает; или даже воспользоваться каким-либо инстру¬ 
ментом, чтобы протестировать его. А ведь это лишь комбинация двух 
простых регулярных выражений. 

Лучшее решение состоит в том, чтобы сохранить два регулярных выра¬ 
жения в первоначальном виде, а для их объединения использовать про¬ 
граммный код. Получившийся при этом программный код будет немно¬ 
го длиннее, но намного проще для понимания, а простота программ¬ 
ного кода является одной из основных причин, по которым использу¬ 
ют регулярные выражения. Выражение, подобное <<Ь>(.*?)</Ь>>, легко 
поймет любой обладающий минимальным опытом работы с регуляр¬ 
ными выражениями; к тому же такое выражение быстро сделает то, 
что в противном случае потребовало бы больше строк программного ко¬ 
да, более сложных в сопровождении. 

Несмотря на то что решения в этом рецепте являются одними из самых 
сложных в этой главе, тем не менее они очевидны. Используются два ре¬ 
гулярных выражения. «Внешнее» регулярное выражение применяется 
для поиска НТМЬ-тегов <Ь> и текста между ними, причем текст между 
тегами сохраняется первой сохраняющей группой. Работа с этим выра¬ 
жением реализована, как было показано в рецепте 3.11. Единственное 
отличие состоит в том, что комментарий, говорящий о том, где можно 
использовать совпадения, замещен программным кодом, позволяющим 
«внутреннему» регулярному выражению выполнить свою работу. 

Второму регулярному выражению соответствуют цифры. Работа с этим 
выражением реализована, как было показано в рецепте 3.10. Единст¬ 
венное отличие состоит в том, что вместо целой строки второе регуляр¬ 
ное выражение применяется только к части испытуемой строки, со¬ 
впавшей с первой сохраняющей группой во внешнем регулярном выра¬ 
жении. 

Существуют два способа ограничить внутреннее регулярное выраже¬ 
ние текстом, совпавшим (с первой сохраняющей группой) во внешнем 
выражении. В некоторых языках программирования имеется функ¬ 
ция, позволяющая применять регулярное выражение к части строки. 
Это может помочь сэкономить на копировании строк, если функция по¬ 
иска соответствий не производит автоматическое заполнение структу¬ 
ры текстом, соответствующим сохраняющим группам. Всегда имеется 
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возможность извлечь подстроку, совпавшую с сохраняющей группой, 
и применить к ней внутреннее регулярное выражение. 

В любом случае совместное использование двух регулярных выражений 
в цикле будет работать быстрее, чем использование одного регулярного 
выражения с вложенными опережающими проверками. Последнее тре¬ 
бует, чтобы механизм регулярных выражений выполнял большое число 
возвратов. Для больших файлов единое регулярное выражение будет ра¬ 
ботать намного медленнее, так как ему потребуется определять границы 
раздела (НТМЬ-теги <Ь>) для каждого числа, присутствующего в испы¬ 
туемом тексте, включая числа, находящиеся вне тегов <Ь>. Решение, ис¬ 
пользующее два регулярных выражения, даже не пытается искать чис¬ 
ла, пока не будут обнаружены границы раздела, время поиска которых 
зависит линейно от размера файла. 

Библиотека ХКе^Ехр для ЗаѵаЗсгірІ имеет особый метод та1:сГіСГіаіп( ), 
специально предназначенный для поиска совпадений с одним регуляр¬ 
ным выражением внутри совпадений с другим регулярным выражени¬ 
ем. Этот метод принимает массив регулярных выражений во втором па¬ 
раметре. В массиве можно передать сколь угодно много регулярных 
выражений. Благодаря этому можно организовать поиск совпадений 
с регулярным выражением внутри совпадений с другим регулярным 
выражением, найденных внутри совпадений с третьим регулярным 
выражением, и т. д. В этом рецепте используется только два регуляр¬ 
ных выражения, поэтому в массиве передается всего два элемента. Ес¬ 
ли потребуется, чтобы следующее выражение выполняло поиск внутри 
фрагментов, совпавших с определенной сохраняющей группой, добавь¬ 
те это регулярное выражение в массив в виде объекта. Объект должен 
иметь свойство гедех с регулярным выражением в нем и свойство Ьаскгеі" 
с именем или номером сохраняющей группы. Если последнее регуляр¬ 
ное выражение поместить в массив в виде объекта со свойствами гедех 
и Ьаскгеі", возвращаемый массив будет содержать совпадения с указан¬ 
ной сохраняющей группой в финальном регулярном выражении. 

См. также 

В этом рецепте использовались приемы, представленные в трех рецеп¬ 
тах выше. В рецепте 3.8 демонстрируется код, определяющий позицию 
и длину совпадения. В рецепте 3.10 демонстрируется код, извлекаю¬ 
щий список всех совпадений, которые были найдены регулярным вы¬ 
ражением в испытуемой строке. В рецепте 3.11 демонстрируется код, 
выполняющий обход всех совпадений, которые были найдены регуляр¬ 
ным выражением в испытуемой строке. 
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3.14. Замена всех совпадений 

Задача 

Необходимо заменить все совпадения с регулярным выражением <ЬеЕоге> 
замещающим текстом « а 'Г 1: е г». 

Решение 

С# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

зігіпд гезиІіЗІігіпд = Недех. Вер1асе(зиЬ]есіЗіігіпд ) "ЬеЕоге", "аЕЕег"); 

Если регулярное выражение вводится конечным пользователем, следует 
использовать статическую функцию с полной обработкой исключений: 

зіігіпд гезиІіЗІігіпд = пиіі; 
ігу { 

гезиІіЗігіпд = Недех. Неріасе(зиЬ^есІіЗі:гіпд, "Ьеіоге", "аііег"); 

} саісЬ (АгдитепіНиІІЕхсерііоп ех) { 

// Не допускается передавать значение пиіі в качестве регулярного 
// выражения, испытуемой строки или замещающего текста 
} саісЬ (АгдитепіЕхсерііоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Недех: 

Недех гедехОЬ] = пе\л/ Ведех( "Ьеіоге"); 

зіігіпд гезиІіЗіігіпд = гедехОЬ]. Вер1асе(зиЬ]есіЗігіпд, "аііег"); 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Недех с полной обработкой исключений: 

зіігіпд гезиІіЗігіпд = пиіі; 
ігу { 

Недех гедехОЬ] = пем Ведех("Ьеіоге"); 

Игу { 

гезиІіЗігіпд = гедехОЬ]. Нер1асе(зиЬдесІіЗІігіпд, "аііег"); 

} саісЬ (АгдитепіМиІІЕхсерііоп ех) { 

// Не допускается передавать значение пиіі в качестве регулярного 
// выражения или замещающего текста 

} 

} саісЬ (АгдитепІіЕхсерІііоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 
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ѴВ.МЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Оіт РезиІіЗігіпд = Редех. Реріасе(ЗиЬ^есІіЗІігіпд, "Ье'Гоге”, "аііег") 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать статическую функцию с полной обработкой исключе¬ 
ний: 

Оіт РезиІіЗігіпд Аз Зігіпд = ИоіЬіпд 
Т гу 

РезиІіЗігіпд = Редех. Вер1асе(ЗиЬз есІіЗі:гіпд , "Ье'Гоге”, "аііег") 

СаісЬ ех Аз АгдитепіМиІІЕхсерііоп 

'Не допускается передавать значение пиіі в качестве регулярного 
'выражения, испытуемой строки или замещающего текста 
СаІісГі ех Аз АгдитепІіЕхсерІііоп 

'Синтаксическая ошибка в регулярном выражении 
ЕпЬ Тгу 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Редех: 

Оіт РедехОЬ] Аз Ые\л/ Редех("Ьеіоге") 

Оіт РезиІіЗігіпд = РедехОЬ]. Рер1асе(ЗиЬ]есіЗігіпд, "аііег") 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Редех с полной обработкой исключений: 

Оіт РезиІіЗігіпд Аз Зігіпд = ИоіЬіпд 
Тгу 

Оіт РедехОЬ] Аз №ѵѵ Редех("Ьеіоге") 

Тгу 

РезиІіЗігіпд = РедехОЬ].Рер1асе(ЗиЬ]есіЗігіпд, "аііег") 

СаісЬ ех Аз АгдитепіМиІІЕхсерііоп 

'Не допускается передавать значение пиіі в качестве регулярного 
'выражения или замещающего текста 
ЕпЬ Тгу 

СаісЬ ех Аз АгдитепіЕхсерііоп 

'Синтаксическая ошибка в регулярном выражении 
ЕпЬ Тгу 

іаѵа 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Зігіпд гезиІіЗігіпд = зиЬ^есіЗігіпд.гер1асеА11("Ьеіоге", "аііег”); 

Если регулярное выражение вводится конечным пользователем, следует 
использовать статическую функцию с полной обработкой исключений: 

і гу { 

Зігіпд гезиІіЗігіпд = зиЬ^есіЗігіпд.гер1асеА11("Ьеіоге", "аііег"); 
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} саіісМ (РаІІегпЗуШіахЕхсерІііоп ех) { 

// Синтаксическая ошибка в регулярном выражении 
} саісб (ПІедаІАгдитепіЕхсерііоп ех) { 

// Синтаксическая ошибка в замещающем тексте 
// (неэкранированный символ $ ?) 

} саісб (ІпсІехОиІОЕВоипсІзЕхсерІіоп ех) { 

// В замещающем тексте использована несуществующая обратная ссылка 

} 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Маісбег: 

Раііегп гедех = Раііегп.сотріІеС'ЬеЕоге" ); 

Маісбег гедехМаІсбег = гедех.та1:сІлег(зиЬаес1:Зі:гіпд); 

Зігіпд гезиІІіЗі:гіпд = гедехМаІсбег. герІасеАІІ("а'ГІіег”); 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Маісбег с полной обработкой исключений: 

31:гіпд гезиІІіЗі:гіпд = пиіі; 

Ігу { 

Раііегп гедех = Раііегп.сотріІеС’ЬеЕоге”); 

Маісбег гедехМаІсбег = гедех.та1сбег(зиЬ]ес1:31:гіпд); 

Ігу { 

гезиІіЗігіпд = гедехМаІсбег.гер1асеА11("аііег"); 

} саісб (ІПедаІАгдитепІЕхсерІііоп ех) { 

// Синтаксическая ошибка в замещающем тексте 
// (неэкранированный символ $ ?) 

} саісб (ІпбехОиІОЕВоипсІзЕхсерІіоп ех) { 

// В замещающем тексте использована несуществующая обратная ссылка 

} 

} саісб (РаіІегпЗупіахЕхсерІіоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

.ІаѵаЗсгірі 

гезіііі = зиЬаесі:. гер1асе(/Ье1 : оге/д ) "аііег"); 

РНР 

$гези11; = ргед_гер1асе( '/Ье^оге/' , 'а'Г'Сег', $зиЬ]есі:); 

РегІ 

Испытуемая строка хранится в специальной переменной $_, результат 
возвращается в переменной $_: 

з/ЬеЕоге/аИег/д; 

Испытуемая строка хранится в переменной $зиЬ]ес1, результат возвра¬ 
щается в переменной $зиЬдес1:: 

$зиЬ]ес1: =~ з/ЬеЕоге/аІІег/д; 
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Испытуемая строка хранится в переменной $зиЬіесІ, результат возвра¬ 
щается в переменной $ гезиіі: 

($ гевиіі: = ЗзиЬіесІ) =“ з/ЬеІоге/аІІег/д; 

РуіЬоп 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать глобальную функцию: 

гезиіі = ге.зиЬ("ЬеГоге", "аііег”, зиЬ]ес1:) 

При многократном использовании одного и того же регулярного выра¬ 
жения предпочтительнее использовать объект скомпилированного ре¬ 
гулярного выражения: 

геоЬ] = ге. сопрі1е("ЬеГоге") 
гезиіі: = геоЬ]. зиЬ(”аІІег", зиЬ^есІ) 

КиЬу 

гезиіі = зиЬ^есІ. дзиЬ(/ЬеГоге/, ' аііег') 

Обсуждение 

.ЫЕТ 

При реализации поиска с заменой с помощью регулярного выражения 
на платформе .ЫЕТ всегда есть возможность использовать метод Ведех. 
ВерІасеО. Метод ВерІасеО имеет 10 перегруженных версий. Половина из 
них принимает замещающий текст в виде строки; эти методы рассмат¬ 
риваются здесь. Другая половина принимает замещающий текст в виде 
делегата МаІсІіЕѵаІиаІог; эти методы рассматриваются в рецепте 3.16. 

Первым аргументом, который ожидает получить метод ВерІасеО* всегда 
является строка, хранящая оригинальный испытуемый текст, в кото¬ 
ром требуется выполнить операцию поиска с заменой. Этот аргумент не 
может иметь значение пиіі. В противном случае метод ВерІасеО возбу¬ 
дит исключение АгдитепІМиІІЕхсерІіоп. Метод ВерІасеО всегда возвраща¬ 
ет строку, в которой выполнены замены найденных совпадений. 

Если регулярное выражение предполагается использовать всего не¬ 
сколько раз, можно применять статическую версию метода. Вторым ар¬ 
гументом этой версии метода передается используемое регулярное вы¬ 
ражение. Замещающий текст передается в третьем аргументе. Парамет¬ 
ры регулярного выражения можно передать в необязательном четвер¬ 
том аргументе. Если регулярное выражение содержит синтаксическую 
ошибку, будет возбуждено исключение АгдитепІЕхсерІіоп. 

Если одно и то же регулярное выражение предполагается использовать 
для обработки большого числа строк, можно повысить эффективность 
программного кода, создав сначала объект Ведех, а затем вызвав метод 
ВерІасеО этого объекта. Первым аргументом этому методу передается 
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испытуемая строка, а вторым - замещающий текст. Это единственные 
обязательные аргументы. 

При вызове метода РерІасеО относительно экземпляра класса Педех ему 
можно передать дополнительные аргументы, ограничивающие заме¬ 
щение совпадений. Если опустить эти аргументы, будут замещены все 
совпадения в испытуемой строке. Статическая версия метода РерІасеО 
не принимает эти дополнительные аргументы, она всегда замещает все 
совпадения. 

В третьем необязательном аргументе, следующем за испытуемым и за¬ 
мещающим текстами, можно передать число выполняемых замен. Если 
число больше единицы, оно обозначает максимально возможное число 
замен. Например, вызов Рер1асе(зиЬ]есІ, геріасетепі:, 3) заменит только 
первые три совпадения с регулярным выражением, а все остальные бу¬ 
дут игнорироваться. Если в строке будет найдено менее трех совпаде¬ 
ний, замещены будут все совпадения. При этом нет никакой возможно¬ 
сти определить ситуацию, когда число замен оказалось меньше, чем 
было запрошено. Если в третьем аргументе передать ноль, ни одной за¬ 
мены не будет произведено и будет возвращена строка в первоначаль¬ 
ном виде. Если передать значение -1, будут замещены все совпадения 
с регулярным выражением. Если передать число меньше -1, метод 
РерІасеО возбудит исключение АгдитепІОііЕОЕРапдеЕхсерЕіоп. 

Если методу был передан третий аргумент с числом замен, можно так¬ 
же передать четвертый необязательный аргумент, определяющий по¬ 
зицию символа, начиная с которого должно выполняться сопоставле¬ 
ние с регулярным выражением. По сути, число, которое передается 
в четвертом аргументе, представляет собой количество символов в на¬ 
чале испытуемого текста, которые должны игнорироваться регуляр¬ 
ным выражением. Этот аргумент может использоваться, когда строка 
уже обработана до некоторой позиции и необходимо выполнить поиск 
с заменой в оставшейся части строки. Значение четвертого аргумента 
должно быть числом в диапазоне от нуля до длины испытуемой строки. 
В противном случае метод РерІасеО возбудит исключение АгдитепЕОиЕОЕ- 
РапдеЕхсерІііоп. В отличие от метода Ма1;сІі(), РерІасеО не позволяет пере¬ 
давать аргумент, в котором можно было бы указать длину подстроки, 
где регулярному выражению позволено выполнять замены. 

}аѵа 

Если требуется выполнить поиск с заменой в одной строке с помощью од¬ 
ного и того же регулярного выражения, можно воспользоваться методом 
герІасеЕігзіО или гер1асеА11() данной строки. Оба метода принимают два 
аргумента: строку с регулярным выражением и строку с замещающим 
текстом. Эти функции удобно вызывать как РаІіІіегп.сотріІеС’ЬеЕоге”). 
таІс(іег(зиЬ]ес1:5ігіпд).гер1асеЕігз1(’’аЕ1:ег") и РаІІегп.сотріІеС'ЬеЕоге’^.таІ;- 
сІіег(зиЬ]ес1:Зі:гіпд).гер1асеА11(”а‘Г^ег’’). 
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Если одно и то же регулярное выражение предполагается использовать 
для обработки множества строк, следует создать объект Маісііег, как опи¬ 
сано в рецепте 3.3, а затем вызвать метод герІасеРігзіО или гер1асеА11() 
этого объекта, передавая ему замещающий текст в качестве единствен¬ 
ного аргумента. 

Если регулярное выражение и замещающий текст вводятся конечным 
пользователем, можно столкнуться с тремя классами исключений. Ис¬ 
ключение Ра^егпЗупі:ахЕхсер1:іоп возбуждается методами Раііегп.сот- 
рі1е(), З^гіпд.герІасеРігзіО и З^гіпд. гер1асеА11(), если регулярное вы¬ 
ражение содержит синтаксическую ошибку. Исключение ІПедаІАгди- 
тепІіЕхсерІііоп возбуждается методами герІасеРігзШ и герІасеАИО, если 
синтаксическая ошибка присутствует в замещающем тексте. Если за¬ 
мещающий текст синтаксически оформлен правильно, но в нем имеют¬ 
ся обратные ссылки на несуществующие сохраняющие группы, возбу¬ 
ждается исключение ІпсІехОиІіОГВоипсІзЕхсерІіоп. 

іаѵаЗспрІ 

Чтобы выполнить поиск с заменой в строке при помощи регулярного 
выражения, можно использовать метод гер1асе() этой строки. Первым 
аргументом этому методу передается регулярное выражение, а вто¬ 
рым- строка с замещающим текстом. Метод гер1асе() возвращает но¬ 
вую строку с произведенными заменами. 

Если необходимо выполнить замену всех совпадений с регулярным вы¬ 
ражением, при создании объекта регулярного выражения следует уста¬ 
новить флаг /д. Как это делается, описывается в рецепте 3.4. В отсутст¬ 
вие флага /д замещено будет только первое совпадение. 

РНР 

Чтобы выполнить поиск с заменой в строке при помощи регулярного 
выражения, можно использовать функцию ргед_гер1асе(). Регулярное 
выражение передается этой функции в первом аргументе, замещаю¬ 
щий текст - во втором, а испытуемый текст - в третьем. Возвращаемое 
значение является строкой с испытуемым текстом, в котором выполне¬ 
ны замены. 

С помощью четвертого необязательного аргумента можно ограничить 
число производимых замен. Если опустить этот аргумент или передать 
в нем значение -1, замещены будут все совпадения. Если указать значе¬ 
ние 0, ни одной замены произведено не будет. Если указать положитель¬ 
ное число, функция ргед_гер1асе() произведет число замен, не превы¬ 
шающее указанного значения. Если число совпадений окажется мень¬ 
ше указанного числа, все имеющиеся совпадения будут замещены без 
появления ошибки. 

Если потребуется узнать количество произведенных замен, можно пе¬ 
редать функции пятый аргумент. В этот аргумент будет записано целое 
число фактически произведенных замен. 
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Особенность функции ргед_гер1асе() заключается в том, что в первых 
трех аргументах вместо строк она может принимать массивы. Если 
в третьем аргументе вместо единственной строки передается массив, 
функция ргед_гер1асе() вернет массив строк, произведя поиск с заменой 
во всех строках. 

Если в первом аргументе передать массив строк с регулярными выраже¬ 
ниями, функция ргед_гер1асе() будет использовать эти регулярные вы¬ 
ражения одно за другим, выполняя операции поиска с заменой в испы¬ 
туемом тексте. Если функции передается массив испытуемых строк, все 
регулярные выражения будут применены ко всем испытуемым стро¬ 
кам. Когда выполняется поиск с помощью массива регулярных выраже¬ 
ний, в качестве замещающего текста можно указать единственную 
строку (которая будет использоваться всеми регулярными выражения¬ 
ми) или массив строк. При использовании двух массивов функция ргед_ 
гер1асе( ) обойдет оба массива регулярных выражений и строк замещаю¬ 
щего текста и будет использовать различные строки замещающего тек¬ 
ста для каждого регулярного выражения. Обход строк в массивах будет 
выполняться в том порядке, в каком они хранятся в памяти, что не все¬ 
гда совпадает с порядком следования индексов в массивах. Если эле¬ 
менты добавлялись в массивы не в порядке следования индексов, масси¬ 
вы регулярных выражений и замещающего текста следует обработать 
функцией кзогіО, прежде чем передавать их функции ргед_гер1асе(). 

В следующем примере массив $гер1асе создается в обратном порядке: 

$гедех[0] = '/а/'; 

$гедех[1] = '/Ь /'; 

$гедех[2] = ’/с/’; 

$гер1асе[2] = ’3*; 

$гер1асе[1] = '2'; 

$гер1асе[0] = '1 ’; 

есРо ргед_гер1асе($гедех, $гер1асе, "аЬс"); 
кзо гі: ($ геріасе ); 

есРо ргед_гер1асе($гедех, $гер1асе, "аЬс"); 

Первый вызов функции ргед_гер1асе() вернет строку 321, которая может 
оказаться не тем, что вы ожидали. После обработки массива функцией 
кзо ПО операция замены вернет строку 123, как и требовалось. Функ¬ 
ция кзо г 1:() изменяет саму переменную, которая ей передается - не сле¬ 
дует передавать ее возвращаемое значение (Ігие или -Гаізе) функции 
ргед_гер1асе(). 

РегІ 

В языке РегІ конструкция з/// в действительности является оператором 
подстановки. Если оператор з/// используется самостоятельно, поиск 
с заменой будет выполняться в переменной $_, а результат будет поме¬ 
щаться обратно в переменную $_. 
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Если необходимо использовать другую переменную с оператором под¬ 
становки, следует применять оператор связывания =~, чтобы ассоции¬ 
ровать оператор подстановки с требуемой переменной. Связывание опе¬ 
ратора подстановки со строкой приводит к немедленному выполнению 
операции поиска с заменой. Результат сохраняется в переменной, где 
хранился испытуемый текст. 

Оператор з/// всегда изменяет переменную, с которой он связывается. 
Если необходимо сохранить результат поиска с заменой в другой пере¬ 
менной с целью оставить исходную переменную в неизменном виде, сна¬ 
чала нужно присвоить другой переменной содержимое исходной пере¬ 
менной, а затем связать оператор подстановки с этой переменной. Реше¬ 
ние на языке Регі демонстрирует, как эти две операции можно выпол¬ 
нить в одной строке программного кода. 

Чтобы выполнить замену всех совпадений с регулярным выражением, 
нужно использовать флаг /д, как описывается в рецепте 3.4. Без этого 
флага Регі заменит только первое совпадение. 

РуіНоп 

Для поиска с заменой в строке при помощи регулярного выражения 
можно использовать функцию зиЬ() из модуля ге. Регулярное выраже¬ 
ние передается функции в первом аргументе, замещающий текст - во 
втором, а испытуемая строка - в третьем. Глобальная функция зиЬ() не 
позволяет указывать параметры регулярного выражения. 

Функция ге.зиЬО вызывает функцию ге.сотріІеО, а затем метод зиЬ() 
объекта скомпилированного регулярного выражения. Этот метод при¬ 
нимает два обязательных аргумента: замещающий текст и испытуе¬ 
мую строку. 

Обе формы функции зиЬ() возвращают строку, в которой замещены все 
совпадения с регулярным выражением. Обе принимают необязатель¬ 
ный аргумент, который можно использовать для ограничения числа 
производимых замен. Если опустить этот аргумент или передать в нем 
нулевое значение, замещены будут все совпадения. Если передать поло¬ 
жительное число, оно будет ограничивать максимальное число заме¬ 
щаемых совпадений. Если число совпадений окажется меньше указан¬ 
ного числа, все имеющиеся совпадения будут замещены без возникнове¬ 
ния ошибки. 

КиЬу 

Для поиска с заменой в строке при помощи регулярного выражения 
можно использовать метод дзиЬ() класса Зігіпд. Регулярное выражение 
передается методу в первом аргументе, а замещающий текст - во вто¬ 
ром. Возвращаемым значением метода является строка с выполненны¬ 
ми в ней заменами. Если в испытуемой строке совпадения с регуляр¬ 
ным выражением отсутствуют, метод дзиЬ() вернет оригинальную стро¬ 
ку. 
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Метод дзиЬ() не изменяет строку, относительно которой он вызывается. 
Если необходимо изменить оригинальную строку, следует вызывать 
метод дзиЬ!(). Если в испытуемой строке совпадения с регулярным вы¬ 
ражением отсутствуют, метод дзиЬ! ( ) вернет значение піі. В противном 
случае он вернет строку, относительно которой был произведен вызов, 
с выполненными в ней заменами. 

См. также 

Раздел «Поиск с заменой с помощью регулярных выражений» в главе 1, 
где описываются различные диалекты текста замены. 

Рецепт 3.15, где демонстрируется код, выполняющий замену совпаде¬ 
ний с повторным использованием фрагментов совпадений. 

В рецепте 3.16 показано, как заменить все совпадения не фиксирован¬ 
ными строками, а текстом, сгенерированным в программном коде. 

3.15. Замена совпадений с повторным 
использованием частей совпадений 

Задача 

Необходимо выполнить поиск с заменой, при котором части совпадений 
с регулярным выражением будут вставляться обратно. Части, которые 
должны вставляться обратно, необходимо изолировать с помощью сохра¬ 
няющих групп в регулярном выражении, как описывается в рецепте 2.9. 

Например, необходимо отыскать пары слов, разделенных знаком ра¬ 
венства, и поменять эти слова местами. 

Решение 

с# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

зі:гіпд гезиІІіЗі:гіпд = Ведех. Пер1асе(зиЬ]ес1:51:гіпд 1 (\\л/+) = ( \ѵл/+)”, "$2=$1"); 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Ведех: 

Ведех гедехОЬ] = пеѵѵ Яедех(@>" (\\л/+) = (\\л/+)"); 

зі:гіпд гезиІІЗІігіпд = гедехОЬ]. Яеріасе(зиЬзесІЗІігіпд, "$2=$1 *'); 

ѴВ.ЫЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Оіт ВезиНЗІгіпд = Педех.Яер1асе(ЗиЬдесІіЗІ:гіпд, "(\м+) = (\м+)" , "$2=$1") 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Ведех: 
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йіт РедехОЬ] Аз Недех("(\м+) = (\\л/+)") 

Оіт ЯезиІІЗігіпд = ЯедехОЬ]. Періасе(ЗиЬдесГЗІігіпд, "$2=$1") 

Іаѵа 

При обработке одной строки этим регулярным выражением можно ис¬ 
пользовать функцию Зігіпд. гер1асеА11(): 

Зіігіпд гезиІіЗігіпд = зиЬдес1:Зі:гіпд. гер1асеА11("(\\м+)=(\\м+)", "$2=$1"); 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Маіхііег: 

Раііііе гп гедех = Раііегп.сотрі1е( ”( \\ѵѵ/+ )=( \\ѵѵ/+ ) "); 

МаІісГіег гедехМаісІіег = гедех.таІісГіег(зиЬаес1:31:гіпд); 

Зіігіпд гезиІіЗігіпд = гедехМаісІіег. гер1асеА11("$2=$1"); 

.ІаѵаБсгірІ 

гезиН = зиЬ]есі. гер1асе(/(\\л/+)=(\ѵѵ+)/д, "$2=$1"); 

РНР 

$гезиіі: = ргед_гер1асе( '/(\м+)=(\м+)/’ , ’$2=$1\ $зиЬзесі:); 

РегІ 

$зиЬ]ес1і =" з/(\м+)=(\м+)/$2=$1/д; 

РуіИоп 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать глобальную функцию: 

гезиіі: = ге.зиЬ(г"(\^+)=(\м+)" І г"\2=\1", зиЬзесі) 

При многократном использовании одного и того же регулярного выра¬ 
жения предпочтительнее использовать объект скомпилированного вы¬ 
ражения: 

геоЬ] = ге. сотрі1е( г" ( \ѵѵ+ ) = ( \ѵѵ+ ) ”) 
гезиіі: = геоЬа. зиЬ( г’*\2=\1 ”, зиЬзесІ:) 

КиЬу 

гезиН = зиЬзесі.дзиЬ(/(\\л/+)=(\ѵѵ+)/ І ’\2=\1') 

Обсуждение 

Регулярное выражение <(\и+)=(\м+)> совпадает с парой слов, и каждое из 
них сохраняется в своей собственной сохраняющей группе. Слово, стоя¬ 
щее перед знаком равенства, сохраняется в первой сохраняющей груп¬ 
пе, второе слово, стоящее после знака равенства, сохраняется во второй 
сохраняющей группе. 
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В замещающем тексте необходимо указать сначала текст, совпавший со 
второй сохраняющей группой, потом знак равенства, а затем текст, сов¬ 
павший с первой сохраняющей группой. Сделать это можно с помощью 
специальных символов-заполнителей. В различных языках програм¬ 
мирования синтаксис определения замещающего текста может изме¬ 
няться в широких пределах. Диалекты замещающего текста рассматри¬ 
ваются в разделе «Поиск с заменой с помощью регулярных выраже¬ 
ний» главы 1, а в рецепте 2.21 описывается, как ссылаться на сохра¬ 
няющие группы в замещающем тексте. 

.ЫЕТ 

В платформе .ЫЕТ можно использовать метод Недех.РерІасеО, который 
был описан в предыдущем рецепте, используя в качестве замещающего 
текста строку. Синтаксис добавления обратных ссылок в замещающий 
текст следует диалекту замещающего текста .ЫЕТ, как описывается 
в рецепте 2.21. 

Іаѵа 

В языке Заѵа можно использовать методы герІасеРігзіО и гер1асеА11(), 
которые рассматривались в предыдущем рецепте. Синтаксис добавле¬ 
ния обратных ссылок в замещающий текст следует диалекту замещаю¬ 
щего текста Заѵа, как описывается в этой книге. 

ІаѵаБсгірІ 

В языке ЗаѵаЗсгірІ можно использовать метод зігіпд. гер1асе(), который 
был описан в предыдущем рецепте. Синтаксис добавления обратных 
ссылок в замещающий текст следует диалекту замещающего текста За- 
ѵаВсгірІ, как описывается в этой книге. 


В языке РНР можно использовать функцию ргед_гер1асе(), которая рас¬ 
сматривалась в предыдущем рецепте. Синтаксис добавления обратных 
ссылок в замещающий текст следует диалекту замещающего текста 
РНР, как описывается в этой книге. 

РегІ 

В языке РегІ часть геріасе в операторе з/гедех/геріасе/ интерпретирует¬ 
ся как строка в кавычках. В замещающей строке допускается исполь¬ 
зовать специальные переменные $&, $1, $2 и т. д., как описывается в ре¬ 
цептах 3.7 и 3.9. Значения этих переменных устанавливаются сразу 
же, как только будет найдено совпадение с регулярным выражением, 
непосредственно перед выполнением замены. Эти переменные можно 
использовать в любом другом программном коде на языке РегІ. Их зна¬ 
чения остаются неизменными, пока не будет предпринята другая по¬ 
пытка сопоставления с регулярным выражением. 
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Все остальные языки программирования, рассматриваемые в этой кни¬ 
ге, предоставляют функцию, которая принимает замещающий текст 
в виде строки. Функция производит синтаксический анализ этой стро¬ 
ки, чтобы обработать обратные ссылки, такие как $1 или \1. Но кон¬ 
струкция $1 не имеет в этих языках специального назначения за преде¬ 
лами замещающего текста. 

Ру*Ноп 

В языке РуІЪоп можно использовать функцию зиЬ(), которая рассмат¬ 
ривалась в предыдущем рецепте. Синтаксис добавления обратных ссы¬ 
лок в замещающий текст следует диалекту замещающего текста РуіЪоп, 
как описывается в этой книге. 

КиЬу 

В языке КиЪу можно использовать метод 31: гіпд .дзиЬ( ), который рас¬ 
сматривался в предыдущем рецепте. Синтаксис добавления обратных 
ссылок в замещающий текст следует диалекту замещающего текста 
КиЪу, как описывается в этой книге. 

В языке КиЪу не предоставляется возможность интерпретировать та¬ 
кие переменные, как $1, в замещающем тексте. Поэтому в КиЪу интер¬ 
претация переменных выполняется перед вызовом дзиЬ(). Но перед вы¬ 
зовом дзиЬ() еще не найдено ни одно совпадение, поэтому невозможно 
выполнить подстановку обратных ссылок. Если попробовать интерпре¬ 
тировать переменную $1, будет получен текст совпадения с первой со¬ 
храняющей группой в последнем регулярном выражении, использовав¬ 
шемся перед вызовом дзиЬ(). 

Поэтому в качестве обратной ссылки в замещающем тексте следует ис¬ 
пользовать такие метасимволы, как «\1». Функция дзиЬ() подставляет 
текст совпадения с соответствующей сохраняющей группой на место 
этих метасимволов для каждого найденного совпадения с регулярным 
выражением. Мы рекомендуем заключать замещающий текст в апостро¬ 
фы. В строках, окруженных кавычками, символ обратного слэша ин¬ 
терпретируется как экранирующий символ и экранирует восьмерич¬ 
ные цифры. Во фрагментах ’\1' и "\\Т используется текст совпадения 
с первой сохраняющей группой, тогда как фрагмент "\1" будет замещен 
символом с кодом 0x01. 

Именованное сохранение 

При использовании в регулярном выражении именованных сохраняю¬ 
щих групп имеется возможность ссылаться из замещающего текста на 
группы по их именам. 

С# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 
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зігіпд гезиІТЗТгіпд = Ведех. Реріасе (зиЬ^ есІіЗІ;гіпд , 

(?<1е1 = 1:>\\л/+) = (?< гід01:>\\л/+)”, "${гід01:}=${1е'М:}"); 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Ведех: 

Ведех гедехОЬ] = пем Ведех(@"(?<1е1 = 1:>\\л/+) = (?< гідТіі:>\\лН- )"); 

зТгіпд гезиІіЗігіпд = гедехОЬ]. Вер1асе(зиЬ]есТЗТгіпд, "${ гідігі: }=${1е1^}") ; 

ѴВ.ЫЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Оіт ВезиІіЗігіпд = Ведех. Вер1асе(ЗиЬ]есТЗі:гіпд, 

"(?<1е1 : 1:>\ѵ/+) = (?<гідІті;>\\й/+)", "${ гідігі:} =${1еі1:}") 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Ведех: 

Оіт ВедехОЬ] Аз Ведех(”(?<1е1 : 1:>\\л/+)=(?<гідР1;>\\м+)”) 

Оіт ВезиІІіЗІ:гіпд = ВедехОЬ;]. ВерІасеСЗиЬзесіЗігіпд, ”${ гідігі: }=${1еі1:}") 

іаѵа 7 

В ^ѵа 7 появилась поддержка именованных сохраняющих групп в ре¬ 
гулярных выражениях и именованных обратных ссылок в тексте за¬ 
мены. 

При обработке одной строки этим регулярным выражением можно ис¬ 
пользовать функцию 31: гіпд. гер1асеА11(): 

31: гіпд гезиІіЗігіпд = зиЬ] есіЗІ:гіпд. гер1асеА11( 

"(?<1еі1:>\\\ѵ+)=(?<гідІг1:>\\\л/+)", ”${ гідіті: }=${ Іе'ГІ:}"); 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект МаісВег: 

Раііегп гедех = Раііегп.сотрі1е(”(?<1еі1:>\\\л/+)=(?<гідВі>\\\л/+)"); 

Маісііег гедехМаісІіег = гедех. таІісГіег(зиЬдесІЗІ:гіпд); 

31: гіпд гезиІіЗігіпд = гедехМаісИег. гер1асеА11( "${ гідігі:}=${Іе'ГІ:} ”): 

ХВедЕхр 

Метод ХВедЕхр.гер1асе() расширяет стандартный синтаксис определе¬ 
ния текста замены в ^ѵаЗсгірі возможностью использовать именован¬ 
ные обратные ссылки. 

ѵаг ге = ХВедЕхр(’’(?<1еГ1:>\\\л/+)=(?<гід[г(:>\\\л/+)" ) "д"); 

ѵаг гезиіі: = ХВедЕхр. герІасеСзиЬдесІ:, ге, ”${гідігі:}=${1еіі}"); 

РНР 

$ гезиіі: = ргед_гер1асе( '/(?Р<1еТХ>\ѵі+)=(?Р<гід \]-\:>\^+)/’, 

’ $2=$1', $зиЬдесі:); 
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Семейство функций ргед в языке РНР использует библиотеку РСКЕ, ко¬ 
торая поддерживает именованные сохранения. Функции ргед_та1:сП() 
и ргед_таІсІі_а11() добавляют совпадения с именованными сохраняю¬ 
щими группами в массив с результатами. К сожалению, функция ргед_ 
гер1асе() не предоставляет возможность использовать именованные об¬ 
ратные ссылки в замещающем тексте. Если регулярное выражение 
имеет именованные сохраняющие группы, нужно сосчитать именован¬ 
ные и нумерованные группы слева направо, чтобы определить номера 
обратных ссылок для каждой группы. Эти номера затем можно исполь¬ 
зовать в замещающем тексте. 

РегІ 

$$иЬ]ес1: =“ 5/(?<1еГі:>\м+) = (?<гідІті:>\\А/+)/$+{гідІтІ:}=$+{1еГ1:}/д; 

Именованные сохраняющие группы поддерживаются в РегІ начиная 
с версии 5.10. В хеше %+ хранятся совпадения со всеми именованными 
сохраняющими группами, имеющимися в последнем использовавшем¬ 
ся регулярном выражении. Этот хеш можно использовать в строке с за¬ 
мещающим текстом, как и в любом другом месте. 

РуіНоп 

При обработке небольшого числа строк можно использовать глобаль¬ 
ную функцию: 

гезиіі = ге.зиЬ(г"(?Р<1еГ1:>\ѵ/+)=(?Р<гідІтІ:>\\л/+)" > г”\д<гідН 1 :>=\д< 1 еГ 1 :>” , 

зиЬ]ес1:) 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект скомпили¬ 
рованного регулярного выражения: 

геоЬз = ге. сотрі1е(г"(?Р<1еГ1:>\\л/+)=(?Р<гідІтІ;>\\л/+)") 
гезиіі = геоЬ]. зиЬ( г”\д<гідІ'іІ>=\д<1еІІ>’ , І зиЬ^есІ) 

КиЬу 

гезиіі: = зиЬд есі: . дзиЬ(/(?<1еІІ>\ѵѵ+)=(?<гідІіІ>\ѵѵ+)/ ) '\к<1еГ1:>=\к<гідІтІ:>’) 

См. также 

Раздел «Поиск с заменой с помощью регулярных выражений» в главе 1, 
где описываются диалекты замещающего текста. 

Рецепт 2.21, где объясняется, как добавлять обратные ссылки на сохра¬ 
няющие группы в замещающий текст. 
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3.16. Замена совпадений фрагментами, 
сгенерированными в программном коде 

Задача 

Необходимо заменить все совпадения с регулярным выражением но¬ 
вым текстом, который генерируется программным кодом. При этом не¬ 
обходимо иметь возможность заменять все совпадения разными стро¬ 
ками, основываясь на фактическом тексте совпадения. 

Например, предположим, что необходимо заменить все числа в строке 
на их произведения с числом два. 

Решение 

с# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

зігіпд гезиІіЗігіпд = Недех. ВерІасеСзи^есіЗігіпд, @"\сІ + ", 

пем МаісЬЕѵа1иаіог(Сотри1:еВер1асетеп1:) ); 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Яедех: 

Недех гедехОЬ] = пем Недех(@"\сі+" ); 

зігіпд гезиІІіЗІ:гіпд = гедехОЬ] . Вер1асе(зиЬ]ес1:Зігіпд, 

пеѵ/ МаісЬЕѵа1иаіог(Сотриі:еВер1асетегі1:)); 

В обоих фрагментах вызывается функция СотриіеЯерІасетепІ:. Этот ме¬ 
тод необходимо добавить в класс, реализующий это решение: 

риЫіс 31: гіпд СотриіеВер1асетеп1:(Ма1:сЬ таісЬВезиІІ:) { 
іпі: імісеазтисЬ = іпі:. РагзеСтаісЬВезиІі. Ѵаіие) * 2; 
геіигп іѵѵісеазтисЬ.ТоЗігіпдО; 

} 

ѴВ.ЫЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Оіт МуМаісЬЕѵаІиаіог Аз №\л/ МаісЬЕѵаІиаіогСАРсігеззОЕ СотриіеЯерІасетепі) 

Оіт ЯезиІІіЗІ:гіпд = Яедех. Яер1асе(ЗиЬдесІіЗІ:гіпд, ”\сІ+", МуМаІсЬЕѵаІиаІог) 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Яедех: 

Оіт ВедехОЬ] Аз Ведех("\сІ+") 

йіп МуМаісЬЕѵаІиаіог Аз №ѵ\/ МаІсОЕѵаІиаІю г( Асісі геззО'Г СотриІіеЯерІасетепІ: ) 

Оіт ЯезиІіЗігіпд = ЯедехОЬ]. ЯерІасеСЗиЬзесіЗігіпд, МуМаісЬЕѵаІиаіог) 
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В обоих фрагментах вызывается функция СотрЩеНерІасетепІ:. Этот ме¬ 
тод необходимо добавить в класс, реализующий это решение: 

РиЫіс Рипсііоп СотриІеВер1асетеп1:(ВуѴа1 МаІісГіПезиІІ: Аз Маісі'і) Аз Зігіпд 
йіт Т\л/ісеАзМисГі = Іпі;. Рагзе(МаІісІпРезиІІ;. Ѵаіие) * 2; 

Пеіигп Т\л/ісеАзМисГі.То51:гіпд(); 

Епсі РипсГіоп 

^ѵа 

ЗІгіпдВиГГег гези11:31: гіпд = пем 31:гіпдВиГГег(); 

Раііііегп гедех = Раіііегп. сотрі1е("\\с!+”): 

МаІсНег гедехМаІсПег = гедех. таТсМе г(зиЬзесІіЗі:гіпд); 

\л/Гіі1е (гедехМаѣсГіег. ГіпсІО) { 

Іпііедег ІмісеазтисР = Іпіедег. рагзеІпіС гедехМаІісГіег. дгоир()) * 2; 
гедехМаІісІ'іег.аррепсІВер1асетеп1:( гези11:31: гіпд, ІіѵѵісеазтисІ'і.ІіоЗІ:гіпд()); 

} 

гедехМаІсРег. аррепсІТаіІ (гези11:51: гіпд); 

іаѵаБсгірІ 

ѵаг гезиіі = зиЬ^есІ. гер1асе(/\сІ+/д. 1 = ипс 1 :іоп(таІсГі) { 
геіигп таІісГі * 2; } 

); 


Используя объявленную ранее функцию обратного вызова: 

$гези11 = ргед_гер1асе_са11Ьаск( ’/\сІ+/*, ’сотриІе_гер1асетепІ’, $зиЬ]есІ); 

Гипсіііоп сотриІе_гер1асетепІ($дгоирз) { 
геіигп $дгоирз[0] * 2; 

} 

Используя анонимную функцию обратного вызова: 

$ гезиіі: = ргед_гер1асе_са11Ьаск( 

7\сі+/’. 

сгеаІе_ІипсІіоп( 

’$дгоирз', 

’ геііигп $дгоирз[0] * 2; ’ 

), 

$зиЬ]есІ 

); 

РегІ 

$зиЬ]ес1: =~ з/\с1+/$& * 2/ед; 

РуіИоп 

При обработке небольшого числа строк можно использовать глобаль¬ 
ную функцию: 

гезиіі: = ге.зиЬ(г”\с1+”, сотриіегеріасетепі, зиЬ^есІ) 
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При многократном использовании одного и того же регулярного выра¬ 
жения предпочтительнее использовать объект скомпилированного ре¬ 
гулярного выражения: 

геоЬ] = ге. сотрі1е( г"\сі+" ) 

гезиіі = геоЬ]. зиЬ(сотрите геріасетегц, зиЬ] есі: ) 

В обоих фрагментах вызывается функция сотрите геріасетепі:. Эта функ¬ 
ция должна быть объявлена до того, как она будет передана функции 
зиЬ(). 

сІеЕ соприТегер1асетепІ(та1:сИоЬ] ): 

геіигп з1:г(іп1:(таІсГіоЬ^. дгоир()) * 2) 


КиЬу 

гезиіі: = зиЬ^есІ:.дзиЬ(/\сІ+/) {|таТсЧ 
Іп1:едег(та1:сГі) * 2 

} 

Обсуждение 

Когда в качестве замещающего текста используется строка, имеется 
возможность выполнять только простую подстановку текста. Чтобы 
каждое совпадение можно было заменить чем-то уникальным, основы¬ 
ваясь на замещаемом совпадении, замещающий текст необходимо гене¬ 
рировать программным кодом. 

С# 

В рецепте 3.14 рассматривались различные способы вызова метода 
Педех.ВерІасеО, когда ему в качестве замещающего текста передается 
строка. Статическая версия метода принимает замещающий текст 
в третьем аргументе, после испытуемого текста и регулярного выраже¬ 
ния. Если передать регулярное выражение конструктору Педех(), по¬ 
явится возможность вызывать метод Нер1асе() созданного объекта, ко¬ 
торый принимает замещающий текст во втором аргументе. 

Вместо строки с замещающим текстом во втором или третьем аргумен¬ 
те допускается передавать делегат МаІсІіЕѵаІиаІіог. Этот делегат является 
ссылкой на функцию-член, которая добавляется в класс, выполняю¬ 
щий операцию поиска с заменой. Создание делегата производится с по¬ 
мощью ключевого слова п еѵу/ и вызова конструктора Ма1:сІіЕѵа1иа^ог(). 
Функция-член передается конструктору МаІс1іЕѵа1иа1:ог() в виде единст¬ 
венного аргумента. 

Функция, которая будет использоваться для создания делегата, долж¬ 
на возвращать строку и принимать объект класса ЗузІіет.Техі.РІедиІагЕх- 
ргеззіопз.МаІхІ'і в виде единственного аргумента. Это тот самый объект 
класса Маісф который возвращается функцией-членом Недех.Ма^сНО, ис¬ 
пользуемой почти во всех предыдущих рецептах этой главы. 
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Когда метод НерІасеО вызывается с делегатом МаІсНЕѵаІиаЕог в качестве 
замещающего текста, для каждого совпадения с регулярным выраже¬ 
нием, которое требуется заменить, будет вызываться ваша функция. 
Эта функция должна возвращать замещающий текст. В процессе созда¬ 
ния замещающего текста допускается использовать любые свойства 
объекта МаЕсІі. В примере, показанном выше, для извлечения строки 
совпадения со всем выражением используется свойство таІсНВезиІЕ. 
Ѵаіие. На практике для сборки замещающего текста из совпадений с со¬ 
храняющими группами, имеющимися в регулярном выражении, часто 
используется коллекция таЕсІ"іВезиП.6гоирз[]. 

Если какие-то определенные совпадения не должны замещаться, функ¬ 
ция должна возвращать значение свойства таІісПВезиІІ: . Ѵаіие. Если функ¬ 
ция вернет значение пиіі или пустую строку, совпадение с регулярным 
выражением будет замещено пустой строкой (т. е. будет удалено). 

ѴВ.МЕТ 

В рецепте 3.14 рассматривались различные способы вызова метода Недех. 
НерІасеО, когда ему в качестве замещающего текста передается строка. 
Статическая версия метода принимает замещающий текст в третьем ар¬ 
гументе, после испытуемого текста и регулярного выражения. Если ис¬ 
пользовать ключевое слово Оіт для создания переменной с регулярным 
выражением, появится возможность вызывать метод ВерІасеО этого 
объекта, который принимает замещающий текст во втором аргументе. 

Вместо строки с замещающим текстом во втором или третьем аргумен¬ 
те допускается передавать объект класса МаІісІіЕѵаІиаІіог. Этот объект со¬ 
держит ссылку на функцию, которая добавляется в класс, выполняю¬ 
щий операцию поиска с заменой. Создание объекта класса МаІсИЕѵаІиаіог 
производится с помощью ключевого слова Оіт. Конструктору МаЕсНЕѵа- 
ІиаЕогО передается ключевое слово АсІйгеззОЕ, за которым следует имя 
функции-члена. Оператор АсІсІгеззОЕ возвращает ссылку на функцию, не 
производя фактический вызов этой функции. 

Функция, которая будет использоваться в объекте МаІсИЕѵаІиаІюг, долж¬ 
на возвращать строку и принимать объект класса ЗузЕет.ТехІі.РедиІаг- 
Ехргеззіопз. МаЕсН в виде единственного аргумента. Это тот самый объект 
класса Маісіі, который возвращается функцией-членом Ведех.Маі:сІі(), ис¬ 
пользуемой почти во всех предыдущих рецептах этой главы. Аргумент 
передается функции по значению, поэтому он объявлен с ключевым 
словом ВуѴаІ. 

Когда метод НерІасеО вызывается с объектом МаІісііЕѵаІиаІіог в качестве 
замещающего текста, для каждого совпадения с регулярным выраже¬ 
нием, которое требуется заменить, будет вызываться ваша функция. 
Эта функция должна возвращать замещающий текст. В процессе созда¬ 
ния замещающего текста допускается использовать любые свойства 
объекта МаЕсІъ В примере, показанном выше, для извлечения строки сов¬ 
падения со всем регулярным выражением используется свойство МаІсН- 
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НезиІІ.ѴаІие. На практике для сборки замещающего текста из совпаде¬ 
ний с сохраняющими группами, имеющимися в регулярном выраже¬ 
нии, часто используется коллекция Ма1сііВези11.6гоир$[]. 

Если какие-то определенные совпадения не должны замещаться, функ¬ 
ция должна возвращать значение свойства МаІсНВезиІІ.ѴаІие. Если функ¬ 
ция вернет значение МоІПіпд или пустую строку, совпадение с регуляр¬ 
ным выражением будет замещено пустой строкой (т. е. будет удалено). 

Іаѵа 

Решение для Лѵа выглядит очень просто. Здесь выполняются итера¬ 
ции через все совпадения с регулярным выражением, как описано в ре¬ 
цепте 3.11. Внутри цикла вызывается метод аррепсіВер1асетеп1() объекта 
МаІсВег. Когда метод 'ГіпсІ () не может отыскать последующие совпаде¬ 
ния, вызывается метод аррепс!Таі1(). Применение методов аррепсіВерІасе- 
теп1() и аррепсІТаі1() существенно упрощает возможность замены каж¬ 
дого совпадения уникальным замещающим текстом. 

Метод аррепсІВер1асетеп1() принимает два аргумента. Первый аргумент 
имеет тип 31; гіпдВи'М^е г и служит временным хранилищем результатов 
в процессе выполнения операции поиска с заменой. Второй аргумент - 
это замещающий текст для последнего совпадения, которое будет обна¬ 
ружено методом 1іпс1(). Этот замещающий текст может включать ссыл¬ 
ки на сохраняющие группы, такие как "$Г. Если в замещающем тексте 
имеется синтаксическая ошибка, будет возбуждено исключение І11е- 
даІАгдитепІЕхсерІіоп. Если в замещающем тексте имеется ссылка на не¬ 
существующую сохраняющую группу, будет возбуждено исключение 
ІпсіехОиЮІВоипсІзЕхсерІіоп. Если вызвать метод аррепсІВер1асепеп1() после 
неудачной попытки отыскать совпадение функцией 1іпсІ(), будет возбу¬ 
ждено исключение ІПедаІЗІаІеЕхсерІіоп. 

В случае успешного завершения вызова метода аррепсЖер1асетеп1() вы¬ 
полняются два действия. Во-первых, он копирует в буфер текст, нахо¬ 
дящийся между предыдущим и текущим совпадениями, не выполняя 
никаких преобразований. Если текущее совпадение было первым, ко¬ 
пируется весь текст, находящийся перед ним. Во-вторых, он добавляет 
замещающий текст, подставляя на место обратных ссылок совпадения 
с соответствующими сохраняющими группами. 

Если требуется удалить какое-то совпадение, его достаточно просто за¬ 
менить пустой строкой. Если необходимо оставить текст совпадения без 
изменения, нужно просто пропустить вызов метода аррепсІВер1асетеп1() 
для этого совпадения. Под словами «предыдущее совпадение» подра¬ 
зумевается предыдущее совпадение, для которого вызывался метод 
аррепсіВер1асетеп1(). Если для каких-то совпадений метод аррепсІРерІа- 
сетеп1() не вызывался, они становятся частью текста между замещае¬ 
мыми совпадениями, который копируется в буфер без изменения. 
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Завершив замещение совпадений, следует вызвать метод аррепсІТаі1(). 
Он скопирует текст в конце строки, находящийся после последнего сов¬ 
падения, для которого вызывался метод аррепсЖер1асетеп1:(). 

іаѵаБсгір! 

В языке ЗаѵаВсгірі; функции являются обычными объектами, которые 
можно присваивать переменным. Вместо строкового литерала или пе¬ 
ременной, которая хранит строку, в функцию зігіпд.герІасеО можно 
передать свою функцию, которая возвращает строку. Эта функция бу¬ 
дет вызываться всякий раз, когда будет обнаруживаться необходимость 
выполнить замену. 

Функцию, возвращающую замещающий текст, можно объявить так, 
что она будет принимать один или более аргументов. В этом случае в пер¬ 
вом аргументе ей будет передаваться текст совпадения с регулярным вы¬ 
ражением. Если в регулярном выражении имеются сохраняющие груп¬ 
пы, во втором аргументе будет передан текст совпадения с первой со¬ 
храняющей группой, в третьем аргументе будет передан текст совпаде¬ 
ния со второй сохраняющей группой и т. д. Благодаря этим аргументам 
можно использовать фрагменты совпадения с регулярным выражением 
для создания замещающего текста. 

В решении на языке ЗаѵаЗсгірІ для этого рецепта функция, возвращаю¬ 
щая замещающий текст, просто принимает текст совпадения с регуляр¬ 
ным выражением и возвращает число, умноженное на два. Преобразова¬ 
ния из строки в число и обратно в языке ЗаѵаЗсгірі; выполняются неявно. 


Функция ргед_гер1асе_са11Ьаск() действует точно так же, как и функ¬ 
ция ргед_гер1асе(), которая была описана в рецепте 3.14. Она принимает 
регулярное выражение, замещение, испытуемый текст, необязатель¬ 
ную начальную позицию и необязательное максимальное число замен. 
Регулярное выражение и испытуемый текст могут быть представлены 
обычными строками или массивами строк. 

Отличие функции ргед_гер1асе_са11Ьаск() состоит в том, что в качестве 
замещения (второй аргумент) она принимает не строку или массив 
строк, а функцию. Если эта функция объявлена в вашем коде, ее имя 
должно передаваться в виде строки. Как вариант можно создать ано¬ 
нимную функцию, передав результат вызова сгеа1:е_Рипс^іоп(). В любом 
случае эта функция должна принимать один аргумент и возвращать 
строку (или что-то, что может быть преобразовано в строку). 

Всякий раз когда функция ргед_гер1асе_са11Ьаск() обнаруживает совпа¬ 
дение с регулярным выражением, она обращается к функции обратного 
вызова. Аргумент заполняется массивом строк. Нулевой элемент этого 
массива содержит совпадение со всем регулярным выражением, осталь¬ 
ные элементы хранят совпадения с соответствующими сохраняющими 
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группами. Этот массив можно применять для сборки замещающего тек¬ 
ста, используя текст совпадения с регулярным выражением или с одной 
или более сохраняющими группами. 

РегІ 

Оператор $/// поддерживает один дополнительный модификатор, кото¬ 
рый игнорируется оператором т//: /е. Модификатор /е, или «ехесиіе» 
(выполнить), предписывает оператору подстановки выполнить часть 
оператора, содержащую замещающий текст, как программный код на 
языке РегІ, а не интерпретировать ее как строку в кавычках. С помо¬ 
щью этого модификатора легко можно извлечь текст из переменной $& 
и умножить его на два. Результат работы программного кода использу¬ 
ется как замещающий текст. 

РуіИоп 

Функция зиЬ() в языке РуЙюп позволяет передавать функцию вместо 
строки с замещающим текстом. Эта функция будет вызываться для за¬ 
мещения каждого совпадения с регулярным выражением. 

Функция должна объявляться до ссылки на нее и принимать один ар¬ 
гумент, экземпляр класса Ма1:сІіОЬ]ес1:, который является тем же самым 
объектом, что возвращает функция зеагсИ(). Этот объект может исполь¬ 
зоваться для извлечения совпадений (или их частей) с регулярным вы¬ 
ражением и конструирования замещающего текста на их основе. По¬ 
дробнее об этом рассказывается в рецептах 3.7 и 3.9. 

Функция обязана возвращать строку с замещающим текстом. 

КиЬу 

В двух предыдущих рецептах использовался метод дзиЬО класса Зігіпд 
с двумя аргументами: регулярное выражение и замещающий текст. 
Для этого метода существует блочная форма. 

В блочной форме метод дзиЬ( ) принимает единственный аргумент с регу¬ 
лярным выражением. Он присваивает первой переменной цикла строку 
с текстом совпадения для всего регулярного выражения. Если добавить 
дополнительные переменные цикла, они будут получать значение піі, 
даже если регулярное выражение содержит сохраняющие группы. 

Внутрь блока следует поместить выражение, создающее строку, кото¬ 
рая будет использоваться в качестве замещающего текста. Внутри блока 
допускается использовать специальные переменные, которые заполня¬ 
ются в процессе сопоставления с регулярным выражением, такие как 
$~, $& и $1. Подробнее об этом рассказывается в рецептах 3.7, 3.8 и 3.9. 

В замещающем тексте не допускается использовать такие метасимво¬ 
лы, как «\1». Они будут интерпретироваться как обычный текст. 
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См. также 

Рецепт 3.9, где демонстрируется код, извлекающий фрагмент испытуе¬ 
мой строки, совпавший с определенной частью регулярного выражения 
(сохраняющей группой). 

Рецепт 3.15, где демонстрируется код, выполняющий замену совпаде¬ 
ний с повторным использованием фрагментов совпадений. 

3.17. Замена всех совпадений внутри совпадений 
с другим регулярным выражением 

Задача 

Необходимо заменить все совпадения с определенным регулярным вы¬ 
ражением, но только внутри определенных участков испытуемого тек¬ 
ста. Искомыми участками являются совпадения с другим регулярным 
выражением. 

Допустим, что имеется файл НТМЬ, в котором различные фрагменты 
выделены тегами <Ь>. Внутри каждой пары тегов <Ь> необходимо заме¬ 
нить все совпадения с регулярным выражением <Ьеіоге> замещающим 
текстом «аііег». Например, строка Ьеіоге <Ь>'Гігз1: Ьеіоге</Ь> Ьеіоге 
<Ь>Ьеіоге Ье1 = оге</Ь> должна быть преобразована в строку Ьеіоге <Ь>іігзі 
аііег</Ь> Ьеіоге <Ь>аііег аііег</Ь>. 

Решение 

с# 

Ведех ОиіегВедех = пем Ведех(”<Ь>. *?</Ь>", ВедехОрііопз. Зіпдіеііпе) ; 

Ведех іппегВедех = пем Ведех( "Ьеіоге"); 

зігіпд гезиІіЗігіпд = оиІіегВедех. Вер1асе(зиЬзесІіЗІ:гіпд. 

пем МаІісІпЕѵаІиаІіо г (СотриѣеВерІасетепІ:)); 

риЫіс Зіігіпд СотриІіеВерІасетепІ:(МаѣсИ таісЬВезиІі) { 

// Выполнить поиск с заменой 

// для каждого совпадения с «внешним» регулярным выражением 
геіигп іппегВедех. Вер1асе(таісЬВези1і.Ѵаіие, "аііег”); 

} 

ѴВ.ЫЕТ 

Оіт ОиіегВедех Аз №м Ведех("<р>.*?</Ь>", ВедехОрііопз.Зіпдіеііпе) 

Оіт ІппегВедех Аз Нем Ведех("Ьеіоге”) 

Оіт МуМаісЬЕѵаІиаіог Аз Ием МаѣсііЕѵаІиаІюг(АсісігеззОІ 1 СотриіеВерІасетепі) 

Оіт ВезиІіЗігіпд = ОиіегВедех.Вер1асе(ЗиЬ]есіЗігіпд, МуМаісЬЕѵаІиаіог) 

РиЫіс Рипсііоп СотриіеВер1асетепі(ВуѴа1 МаісЬВезиІі Аз МаісЬ) Аз Зігіпд 
'Выполнить поиск с заменой 

'для каждого совпадения с «внешним» регулярным выражением 
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Веіигп ІппегВедех. Вер1асе(МаісЬВези1і. Ѵаіие, "аііег"); 

ЕпсІ Рипсііоп 

.Іаѵа 

31:гіпдВиТТег гезиІіЗігіпд = пем ЗіігіпдВи'ГТегС); 

Раііегп оиіегВедех = Раѣііегп. сотрі1е("<Ь>. *?</Ь>"); 

Райе г п ІппегВедех = Раііегп.сотрі1е("Ьеіоге"); 

МаісЬег оиіегМаісЬег = оиіегВедех.та1:сМег(зиЬзесііЗІ:гіпд); 
мЫІе (оиіегМаісЬег. Ііпсі()) { 

оиіегМаісЬег. аррепсІВер1асетепі( гезиІіЗігіпд, 

ІппегВедех.таісЬег(оиіегМаісЬег.дгоир()). гер1асеА11("аііег")); 

} 

оиіегМаісЬег. аррепсІТаіІ (гезиІіЗігіпд); 

.ІаѵаЗсгірІ 

ѵаг гезиіі = зиЬзесі. гер1асе(/<Ь>. *?<\/Ь>/д, Іипсііоп(таісЬ) { 
геіигп таісЬ.гер1асе(/Ьеіоге/д, "аііег"); 

}); 

РНР 

$ гезиіі: = ргед_гер1асе_са11Ьаск( ’%<Ь>. *?</Ь>%', гер1асе_мііЬіп_іад, $зиЬ^ есі:); 
Типсііоп гер1асе_\л/ііЬіп_іад($дгоирз) { 

геіигп ргед_гер1асе('/Ьеіоге/', 'аііег', $дгоирз[0]); 

} 

РегІ 

$зиЬ]есі =” з%<Ь>. *?</Ь>%($таісИ = $&) =" з/Ьеіоге/аііег/д; $таісІг,%ед; 

РуіНоп 

іппегге = ге.сотрі1е("Ьеіоге”) 
сіеі гер1асе\ѵііЬіп(таісЬоЬ]): 

геіигп іппегге. зиЬС'аііег", таісВоЬ] .дгоирО) 

гезиіі = ге.зиЬ(”<Ь>.*?</Ь>", герІасеѵмііЬіп, зиЬ^есі) 

КиЬу 

іппегге = /Ьеіоге/ 

гезиіі = зиЬ]есі.дзиЬ(/<Ь>.*?<\/Ь>/) {|таісМ| 
таісЬ.дзиЬ(іппегге, 'аііег') 

} 

Обсуждение 

Данное решение представляет собой комбинацию решений двух преды¬ 
дущих рецептов и основано на использовании двух регулярных выраже¬ 
ний. «Внешнему» регулярному выражению <<Ь>.*?</Ь>> соответствуют 
пары тегов <Ь> и текст между ними. «Внутреннему» регулярному выра¬ 
жению соответствует слово «Ьеіоге», которое замещается словом «аЙег». 
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В рецепте 3.16 описывается, как выполнить поиск с заменой, конструи¬ 
руя замещающий текст для каждого совпадения с помощью программ¬ 
ного кода. Здесь этот прием применяется для замещения совпадений 
с внешним регулярным выражением. Каждый раз когда внешнее регу¬ 
лярное выражение обнаруживает открывающий и закрывающий теги 
<Ь>, запускается операция поиска с заменой, как это делалось уже в ре¬ 
цепте 3.14. Испытуемым текстом для операции поиска с заменой во 
внутреннем регулярном выражении является текст, совпавший с внеш¬ 
ним регулярным выражением. 

См. также 

В этом рецепте используется прием, описанный в трех предыдущих ре¬ 
цептах. Рецепт 3.11 демонстрирует код, выполняющий обход всех совпа¬ 
дений, которые были найдены регулярным выражением в испытуемой 
строке. Рецепт 3.13 демонстрирует код, выполняющий поиск совпаде¬ 
ний внутри совпадений с другим регулярным выражением. Рецепт 3.16 
демонстрирует возможность замены совпадений не фиксированными 
строками, а текстом, сгенерированным в программном коде. 

3.18. Замена всех совпадений 
между совпадениями с другим 
регулярным выражением 

Задача 

Необходимо заменить все совпадения с некоторым регулярным выраже¬ 
нием, но только внутри определенных участков испытуемого текста. Ис¬ 
комыми участками являются фрагменты, расположенные между совпа¬ 
дениями с другим регулярным выражением. Другими словами, необхо¬ 
димо выполнить поиск с заменой во всех фрагментах испытуемого тек¬ 
ста, которые не совпали с другим регулярным выражением. 

Предположим, что имеется файл НТМЬ, в котором необходимо заме¬ 
нить все прямые кавычки ("") фигурными но только за пределами 
тегов НТМЬ. Кавычки внутри тегов должны оставаться прямыми ка¬ 
вычками А8СП, в противном случае веб-браузер окажется не в состоя¬ 
нии выполнить парсинг разметки НТМЬ. Например, строка ' Чехі” <зрап 
с1аз$="ті(Ше'>"Іех1:"</зрап> ”1ехІ" должна быть преобразована в “Іехі:” 
<зрап сіазз-ШсІс11е , ’>“ІехІ м </зрап> “Іехі”. 

Решение 

С# 

зіігіпд гезиІІіЗіігіпд = пиіі; 

Педех оЩегНедех = пе\л/ Ведех("<[~<>]*>"); 
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Недех іппегНедех = пем Редех("\"([~\"]*)\""); 

// Найти первый фрагмент 
іпі Іазііпсіех = 0; 

МаісР оиіегМаІісН = оиіегНедех. МаісО(зиЬзесІіЗІігіпд); 
мійіе (ои1:егМа1:сІі. Зиссезз) { 

// Выполнить поиск с заменой в тексте 
// между этим и предыдущим совпадениями 
зігіпд іехіВеІімееп = 

зиЬдесІіЗІ:гіпд. ЗиЬз1;гіпд(Іазіііпсіех, оиіегМаІісІ'і. ІпРех - Іазііпсіех); 
гези11:31:гіпд += іппегНедех. Реріасе(1:ех1:Ве1:\л/ееп, "\и201С$1\и20Ю"); 
Іазііпсіех = оиі:егМаІісІэ. Іпсіех + оиіегМаісІт ЬепдііО; 

// Скопировать текст фрагмента без изменений 
гезиІІіЗі: гіпд += оиіегМаісН. Ѵаіие; 

// Найти следующий фрагмент 

оиііе гМаІісМ = оиііе гМаІісІп. ИехІіМаІісИ (); 

} 

// Выполнить поиск с заменой в оставшейся части строки 
// после последнего совпадения 

зіігіпд іехіАііег = зиЬдесІіЗІ:гіпд.ЗиЬз1:гіпд(Іазіііпсіех, 

зиЬзесіЗігіпд. 1_епдіР - Іазіііпсіех); 
гезиІіЗігіпд += іппегНедех.Нер1асе(іехіАІіег, "\и201С$1\и20Ю"); 

ѴВ.ЫЕТ 

Оіт НезиІіЗігіпд Аз 31:гіпд = Моііліпд 
Оіт ОиіегВедех Аз Недех("<[~<>]*>") 

Оіт ІппегНедех Аз Недех( ([ ]*).) 

’Найти первый фрагмент 
Оіт Іазіііпсіех = 0 

Оіт ОиіегМаісН = ОиіегНедех.МаІсИ(ЗиЬ^есІіЗІігіпд) 

Міііе ОиіегМаісН.Зиссезз 

'Выполнить поиск с заменой в тексте 

'между этим и предыдущим совпадениями 

Оіт ТехіВеімееп = ЗиЬзесіЗігіпд.ЗиЬзІ:гіпд(Іазіііпсіех, 

ОиіегМаісИ. Іпсіех - І_азіІпсІех); 

НезиІіЗігіпд += ІппегНедех. Нер1асе(ТехіВеіѵѵееп, 

СПгІлІ(ШОІС) + "$1" + СГігМ(&Н20Ю)) 

Іазіііпсіех = ОиІегМаісІі. Іпсіех + ОиіегМаісІі. І_епдіИ 
'Скопировать текст фрагмента без изменений 
НезиІіЗігіпд += ОиіегМаісІі. Ѵаіие 
’Найти следующий фрагмент 
ОиіегМаісН = ОиіегМаісН. ЫехІіМаІісМ 
Епб ІШІе 

'Выполнить поиск с заменой в оставшейся части строки 
'после последнего совпадения 

Оіт ТехіАііег = ЗиЬзесіЗігіпд.ЗиЬзігіпдСіазіІпсІех, 

ЗиЬзесіЗігіпд. ЬепдіЬ - Іазіііпсіех); 
НезиІіЗігіпд += ІппегНедех. Нер1асе(Тех1іАі1іег, 

СЬгМ(&Н201С) + ”$1" + СЬгІл/(&Н20Ю) ) 
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.Іаѵа 

5^ гіпдВи'Г'Гег гези11;31: гіпд = пеѵ/ 31; гіпдВи‘Г'Гег(); 

Раііегп оиіегВедех = Раііііегп. сотрі1е(”<[''<>]*>"); 

Раііегп іппегВедех = Раііегп.сотрі1е("\"(['Л"]*)Ѵ"’); 

МаІісМег оиІіегМаІісМег = оиіегВедех.таісІіег(5иЬіес13ігіпд); 
іпі Іазііпсіех = 0; 

\л/Ше (оиіегМаісІпег.РіпсІ()) { 

// Выполнить поиск с заменой в тексте 

// между этим и предыдущим совпадениями 

Зігіпд іехіВеіѵѵееп = зиЬ^есіЗігіпд. зиЬзігіпд(1азіІпсіех, 

оиіегМаісбег. зііагі: ()); 

Маісіпег іппегМаісбег = іппегВедех.таіісітег(1:ех1:Ве1:\л/ееп); 
гезиІіЗігіпд.аррепсі(іппегМаІісІтег. герІасеАІІ(”\и201С$1\и20Ю”)); 
Іазііпсіех = оиіегМаісВег. епсі (); 

// Добавить совпадение с регулярным выражением, не изменяя его 
гезиІіЗі гіпд. аррепсі (оиііе гМаІісИе г. дгоир()); 

> 

// Выполнить поиск с заменой в оставшейся части строки 
// после последнего совпадения 

Зігіпд іехіАііег = зиЬ^есіЗігіпд. зиЬзІ:гіпд(Іазіііпсіех); 

Маісбег іппегМаісбег = іппегВедех.та1:сІіег(1:ех1:А1 = 1;ег); 
гезиІіЗігіпд. аррепсі (іппегМаісІіе г. герІасеАІІ ("\и201С$1\и20Ю")); 

.ІаѵаБсгірі 

ѵаг гезиіі = 

ѵаг оиіегВедех = /<[' "<>]*>/д; 
ѵаг іппегВедех = /”([~"]*)’7д; 
ѵаг оиіегМаісІі = пиіі; 
ѵаг Іазііпсіех = 0; 

ѵЛііІе (оиіегМаісіі = оиіегВедех.ехес(зиЬ]есі)) { 

іі (оиіегМаісІі. іпсіех == оиіегВедех. Іазііпсіех) оиіегВедех. 1аз1:Іпс]ех++; 
// Выполнить поиск с заменой в тексте между этим 
// и предыдущим совпадениями 

ѵаг іехіВеіѵ/ееп = зиЬ]есі.з1ісе(Іазіііпсіех, оиіегМаісіі.іпсіех); 
гезиіі += іехіВеіѵѵееп. гер1асе(іппегВедех, ”\и201С$1\и201й"); 

Іазіііпсіех = оиіегМаісіі. іпсіех + оиіегМаІсИ[0]. Іепдіб; 

// Добавить совпадение с регулярным выражением, не изменяя его 
гезиіі += оиіе гМа1:сІт[ 0 ]; 

} 

// Выполнить поиск с заменой в оставшейся части строки 

// после последнего совпадения 

ѵаг іехіАііег = зиЬ]ес1:. з1ісе(ІазІІпсіех); 

гезиіі += ІехіАііег. гер1асе(іппегВедех, "\и201С$1\и20Ю”); 


$гези1і = ’ ’; 

$1азііпсІех = 0; 

ѵМІе (ргед_таісІі( ’/<["<>]*>/’, $зиЬ]есі, $дгоирз, РВЕ0_0РРЗЕТ_САРТ11ВЕ, 

$1азііпсіех)) { 
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$ша1:сІіз1:аг1; = $дгоирз[0][1 ]; 

$та1:сИ1епд1:М = з1:г1еп($дгоирз[0][0]); 

// Выполнить поиск с заменой в тексте между этим 
// и предыдущим совпадениями 

$1:ехі:Ье1:\л/ееп = зиЬз1:г($зиІЭ]есі, $1а5ііпсІех, $та1:сІі5І:агі-$1аз1:іпсІех); 
$ гезиіі: .= ргед_гер1асе( '/”([''"]*)"/’. ’ “$1 ”', $1:ех1:Ье1:\л/ееп); 

// Добавить совпадение с регулярным выражением, не изменяя его 
$гези1і .= $д гоирз[0][0]; 

// Переместить начальную позицию для поиска следующего совпадения 
$1аз1:іпРех = $та1:сІпз1:а гі: + $таісІ’і1епдіІі; 
іі ($та1:сІі1епд1:И == 0) { 

// Устранить вероятность бесконечного цикла в случае, 

// когда регулярное выражение допускает возможность появления 

// совпадений нулевой длины 

$1аз1:іпсІех++; 

} 

} 

// Выполнить поиск с заменой в оставшейся части строки 

// после последнего совпадения 

$1:ех1:а1 = 1:ег = зиЬз1:г($зиЬ]ес1:, $1аз1:іпс1ех) ; 

$ гезиіі: . = р гед_гер1асе (, ' “$1 ”', $іех1:аі1:ег) ; 


изе епсобіпд ”и1:Г-8”; 

$гези11: = ' ’; 

\л/Рі1е ($зиЬ]ес1: =“ т/<[ л <>]*>/д) { 

$та1:сН = $&; 

$іех1:аі1:ег = $’; 

($Иех1ЬеИ\л/ееп =$')=" з/”([''"]*)"Дх{2010}$1\х{201 й}/д; 

$ гезиіі; .= $1:ех1:Ье1:ѵл/ееп . $та1:сМ; 

} 

$*ехІаПег =~ з/"([''"]*)7\х{201С}$1\х{20Ю}/д; 

$ гезиіі: .= $1:ех1:аі1:ег; 

РуіНоп 

іппегге = ге.сотрі1е( ’ ) 

гезиіі: = 

Іазіііпсіех = 0; 

іог оиіегтаісіі іп ге.-Гіп(Ш:ег("<[''<>]*>", зиб^есі:): 

# Выполнить поиск с заменой в тексте между этим 

# и предыдущим совпадениями 

іехіЬеіѵѵееп = зиЬзес1:[ Іазіііпсіех: оиііе гтаіісіп. з1аг1:() ] 
гезиіі: += іппегге.зиЬ(и"\и201С\\1\и20Ю", іехіЬеіѵѵееп) 
ІазііпРех = оиіегтаісП. епс1() 

# Добавить совпадение с регулярным выражением, не изменяя его 
гезиіі: += оиіегтаісП. дгоир() 

# Выполнить поиск с заменой в оставшейся части строки 

# после последнего совпадения 
іехіаііег = зиЬ^есі:[Іазіііпсіех: ] 

гезиіі: += іппегге.5иЬ(и"\и201С\\1\и20Ю", іехіаіііег) 
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КиЬу 

гезиіі = ' ’; 

Іехіаііег = 

зиЬ^ есі: . зсап(/<["<>]*>/) {| таІісМ | 

1;ех1:а'Г1:ег = $’ 

ІехІЬеІмееп = $’. дзиЬ(/"( [~"]*)"/, ’ “\1 ’” ) 
гезиіі: += ІехІЬеІмееп + таісіі 

} 

гезиіі: += Іехіаііег.дзиЬ(/"([~"]*)"/, 

Обсуждение 

В рецепте 3.13 говорилось, как задействовать два регулярных выраже¬ 
ния, чтобы отыскать совпадения (со вторым регулярным выражением) 
внутри определенных фрагментов в файле (совпавших с первым регу¬ 
лярным выражением). В решениях для этого рецепта используется тот 
же самый прием поиска и замены совпадений, только в пределах опре¬ 
деленных фрагментов испытуемого текста. 

Очень важно, чтобы регулярное выражение, которое используется для 
поиска фрагментов, разделяющих испытуемый текст на части, работа¬ 
ло с оригинальной строкой. Если бы оригинальная строка модифициро¬ 
валась, необходимо было бы смещать начальную позицию поиска для 
первого регулярного выражения, отыскивающего разделы, по мере до¬ 
бавления и удаления символов вторым регулярным выражением. Еще 
более важно, что модификации могут вносить нежелательные побоч¬ 
ные эффекты. Например, если внешнее регулярное выражение исполь¬ 
зует якорный метасимвол <">, чтобы привязать совпадение к началу 
строки, а внутреннее регулярное выражение вставляет символ перево¬ 
да строки в конец раздела, найденного первым регулярным выражени¬ 
ем, то метасимвол <~> будет совпадать сразу же за предыдущим разде¬ 
лом с вновь добавленным символом перевода строки. 

Несмотря на то что решения получились довольно длинными, все они 
достаточно простые. В решениях используются два регулярных выра¬ 
жения. «Внешнему» регулярному выражению <<[~о]*>> соответствуют 
пары угловых скобок и все, что находится между ними, за исключе¬ 
нием самих угловых скобок. Это грубый способ поиска любых тегов 
НТМЬ. Это регулярное выражение будет замечательно справляться со 
своей задачей при условии, что файл НТМЬ не содержит каких-либо уг¬ 
ловых скобок, которые не были (по ошибке) оформлены как сущности. 
Реализация работы с этим регулярным выражением в точности повто¬ 
ряет программный код из рецепта 3.11. Единственное отличие состоит 
в том, что комментарии, сообщающие, где можно использовать найден¬ 
ное совпадение, замещены программным кодом, который выполняет 
операцию поиска с заменой. 

Поиск с заменой в цикле реализован точно так же, как решение для ре¬ 
цепта 3.14. Испытуемая строка, в которой выполняется поиск с заме- 
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ной, содержит фрагмент текста между предыдущим и текущим совпа¬ 
дениями с внешним регулярным выражением. Результат работы внут¬ 
ренней операции поиска с заменой добавляется в конец строки с общим 
результатом. Кроме того, в конец строки с общим результатом в неиз¬ 
менном виде добавляется текущее совпадение с внешним регулярным 
выражением. 

Когда попытка отыскать совпадение с внешним регулярным выраже¬ 
нием терпит неудачу, в последний раз запускается операция поиска 
с заменой в тексте, следующем за последним совпадением с внешним 
регулярным выражением. 

Регулярному выражению <"([~"]*)">> используемому внутри цикла для 
выполнения поиска с заменой, соответствуют пары кавычек и все, что 
находится между ними, за исключением самих кавычек. Текст между 
кавычками сохраняется первой сохраняющей группой. 

В замещающем тексте используется ссылка на первую сохраняющую 
группу, которая помещена внутри пары фигурных кавычек. Фигур¬ 
ным кавычкам соответствуют пункты Юникода ІЛ-201С и Ш-20Ш. 
Обычно фигурные кавычки можно вставлять непосредственно в исход¬ 
ные тексты. Однако Ѵівиаі 8і;ш1іо 2008, претендуя на интеллектуаль¬ 
ность, автоматически замещает фигурные кавычки прямыми. 

Внутри регулярного выражения сопоставление с кодовыми пунктами 
Юникода можно описать как <\и201С> или <\х{201С}>, но ни в одном из язы¬ 
ков программирования, рассматриваемых в этой книге, не поддержива¬ 
ется возможность использовать такие конструкции в замещающем тек¬ 
сте. Если конечный пользователь пожелает вставить фигурные кавыч¬ 
ки в замещающий текст, который он набирает в поле ввода, ему придет¬ 
ся вставлять эти символы, копируя их из таблицы символов. В исходном 
тексте программы внутри замещающего текста можно использовать эк¬ 
ранированные последовательности Юникода, если они поддерживают¬ 
ся языком программирования в строковых литералах. Например, язы¬ 
ки С# и ^ѵа поддерживают конструкцию \и201С на уровне строки, но 
ѴВ.ЫЕТ не обеспечивает возможность добавления экранированных по¬ 
следовательностей Юникода в строки. В ѴВ.ЫЕТ для преобразования 
кодового пункта Юникода в символ можно воспользоваться функцией 
СІ-ігілК). 

РегІ и КиЬу 

В решениях на языках РегІ и КиЬу используются две специальные пере¬ 
менные, доступные в этих языках, о которых еще не рассказывалось. 
Переменная $' (знак доллара и обратный апостроф) хранит часть текста, 
расположенную слева от совпадения, а переменная $’ (знак доллара 
и апостроф) хранит часть текста, расположенную справа от совпадения. 
Вместо того чтобы выполнять итерации по совпадениям в оригиналь¬ 
ной строке с испытуемым текстом, мы начинаем новый поиск в части 
строки, следующей за предыдущим совпадением. При таком подходе 
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с помощью переменной $' легко можно извлечь текст, расположенный 
между предыдущим и текущим совпадениями. 

РуіНоп 

Результатом работы этого фрагмента кода является строка символов 
Юникода, потому что замещающий текст объявляется как строка Юни¬ 
кода. Чтобы ее отобразить, может потребоваться задействовать функ¬ 
цию епсос1е(), как показано ниже: 

ргіпі: гезиШ епсосіе( ’ 1252') 

См. также 

В этом рецепте используется прием, описанный в трех предыдущих ре¬ 
цептах. Рецепт 3.11 демонстрирует код, выполняющий обход всех совпа¬ 
дений, которые были найдены регулярным выражением в испытуемой 
строке. Рецепт 3.13 демонстрирует код, выполняющий поиск совпаде¬ 
ний внутри совпадений с другим регулярным выражением. Рецепт 3.16 
демонстрирует возможность замены совпадений не фиксированными 
строками, а текстом, сгенерированным в программном коде. 

3.19. Разбиение строки 

Задача 

Необходимо разбить строку с помощью регулярного выражения. После 
разбиения должен получиться массив строк, содержащих фрагменты 
текста между совпадениями с регулярным выражением. Например, тре¬ 
буется разбить строку, содержащую теги НТМЬ, по этим тегам. Резуль¬ 
татом разбиения строки І*1іке*<Ь>Ьо1с1</Ь>*апсІ*<і>і1:а1іс</і>»'Гоп1:5 дол¬ 
жен быть массив из пяти строк: І*1іке% Ьоісі, •апсі*, ііаііс и •‘Гопііз. 

Решение 

С# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

з1:гіпд[] зрШАггау = Ведех.Зрііі:(зиЬ^есІіЗІ:гіпд, "<[''<>]*>”); 

Если регулярное выражение вводится конечным пользователем, следует 
использовать статическую функцию с полной обработкой исключений: 

31гіпд[] зрІіІАггау = пиіі; 

Ігу { 

зрШАггау = Редех.5рШ(зиЬ]ес1:31:гіпд, "<["<>]*>"); 

} саІсГі (АгдитепІМиІІЕхсерІііоп ех) { 

// Не допускается передавать значение пиіі в качестве регулярного 
// выражения или испытуемой строки 
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} саТсІі (АгдитепТЕхсерТіоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Редех: 

Редех гедехОЬ] = пем Редех( "<[''<>]*>'*); 

зігіпд[] зрПТАггау = гедехОЬд. Зр1і1:(зиЬдес1:51:гіпд) ; 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Редех с полной обработкой исключений: 

зігіпд[] зрПТАггау = пиіі; 

Тгу { 

Редех гедехОЬд = пе\л/ Редех("<['*<>]*>"); 

Тгу { 

зрПТАггау = гедехОЬ]. 5р1і1:(зиЬдесІіЗі:гіпд ); 

} саТсб (АгдитепТМиІІЕхсерТіоп ех) { 

// Не допускается передавать значение пиіі в качестве регулярного 
// выражения или испытуемой строки 

} 

} саТсб (АгдитепТЕхсерііоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

ѴВ.МЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Оіт ЗрПТАггау = Редех. Зрііі: (ЗиЬд есІіЗТ:гіпд , ”<[''<>]*>”) 

Если регулярное выражение вводится конечным пользователем, следует 
использовать статическую функцию с полной обработкой исключений: 

Оіт ЗрПТАггау Аз ЗТгіпдО 
Тгу 

ЗрПТАггау = Редех. Зрііі: (ЗиЬд есІЗІ:гіпд , "<['*<>]*>") 

СаТсб ех Аз АгдитепТМиІІЕхсерТіоп 

’Не допускается передавать значение пиіі в качестве регулярного 
'выражения или испытуемой строки 
СаТсб ех Аз АгдитепТЕхсерТіоп 

'Синтаксическая ошибка в регулярном выражении 
ЕпсІ Тгу 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Редех: 

Оіт НедехОб] Аз Редех("<[~<>]*>") 

Оіт ЗрПТАггау = НедехОЬ]. 5р1іТ(5иЬ]есТ5Тгіпд) 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект Редех с полной обработкой исключений: 
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Оіт ЗрИТАггау Аз ЗТгіпдО 
Т гу 

Оіт РедехОЬ] Аз №ѵ\/ Редех("<[~<>]*>") 

Т гу 

ЗрИТАггау = НедехОЬ]. 8рПТ(ЗиЬ]есТ5Тгіпд) 

СаТсІі ех Аз АгдитепТМиІІЕхсерТіоп 

'Не допускается передавать значение пи11 в качестве регулярного 
'выражения или испытуемой строки 
ЕпсІ Тгу 

СаТсіі ех Аз АгдитепІіЕхсерІііоп 

'Синтаксическая ошибка в регулярном выражении 
ЕпР Тгу 

Іаѵа 

Если необходимо разбить всего одну строку, используя это же регуляр¬ 
ное выражение, можно использовать функцию 5Тгіпд.ЗрИТ(): 

ЗТгіпд[] зрИТАггау = зиЬд есІіЗІ:гіпд.зр1і1:(”<[''<>]*>”); 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет предусмотреть полную обработку исключений: 

тгу { 

ЗТгіпд[] зрПТАггау = зиЬзесТЗТгіпд. зрПТ("<[''<>]*>"); 

} саТсІп (РаТТегпЗупіахЕхсерТіоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект РаТТегп: 

РаТТегп гедех = РаТТегп. сотрі1е("<[~<>]*>"); 

5Тгіпд[] зрИТАггау = гедех. зр1іТ(зиЬд есТЗТ гіпд ); 

Если регулярное выражение вводится конечным пользователем, следу¬ 
ет использовать объект РаТТегп с полной обработкой исключений: 

5Тгіпд[] зрИТАггау = пиіі; 

Тгу { 

РаТТегп гедех = РаТТегп. сотрі1е("<[~<>]*>"); 
зрИТАггау = гедех. 5р1іТ(зиЬ]есТЗТгіпд); 

} саТсІі (АгдитепТЕхсерТіоп ех) { 

// Синтаксическая ошибка в регулярном выражении 

} 

.ІаѵаЗсгірІ 

Разбивать строки с применением регулярного выражения можно с по¬ 
мощью метода зігіпд. зрИТ(): 

гезиІТ = зиЬ]есТ.зр1іТ(/<[~<>]*>/); 

ХКедЕхр 

гезиІТ = ХНедЕхр. 5р1іТ(зиЬ]есТ, /<[~<>]*>/); 
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РНР 

$ гезиІТ: = ргед_зрИТ( '/<["<>]*>/’. $зиЬ]есі:); 

РегІ 

@гезиИ = зрііі:(т/<[ ''<>]*>/, $зиЬзесі:); 

РуіНоп 

При разбиении небольшого числа строк можно использовать глобаль¬ 
ную функцию: 

гезиИ = ге.зрііі:("<[~<>]*>", зиЬ^есІ)) 

При многократном использовании одного и того же регулярного выра¬ 
жения предпочтительнее использовать объект скомпилированного ре¬ 
гулярного выражения: 

геоЬ] = ге.сотрі1е("<[' ч <>]*>") 
гезиіі: = геоЬ]. зрП1:(5иЬ]ес1) 

КиЬу 

гезиіі: = зиЬ^есІ:. зрііі: (/<[ Л <>]*>/) 

Обсуждение 

При разбиении строки с помощью регулярного выражения, по сути, ре¬ 
шается задача, противоположная рецепту 3.10. Вместо получения спи¬ 
ска всех совпадений с регулярным выражением в данном случае требу¬ 
ется получить список фрагментов текста между совпадениями, вклю¬ 
чая текст перед первым совпадением и после последнего совпадения. 
Сами совпадения с регулярным выражением исключаются из конечно¬ 
го результата. 

С# и ѴВ.ЫЕТ 

Чтобы разбить строку с помощью регулярного выражения, в платфор¬ 
ме .ЫЕТ всегда имеется возможность использовать метод Редех.ЗрШ(). 
Первым аргументом методу всегда передается строка, хранящая ориги¬ 
нальный испытуемый текст, который требуется разбить. В этом аргу¬ 
менте не допускается передавать значение піііі. В противном случае ме¬ 
тод Зрііі: () возбудит исключение АгдипепіМиІІЕхсерііоп. Возвращаемым 
значением метода ЗрІііО всегда является массив строк. 

Если регулярное выражение предполагается использовать всего не¬ 
сколько раз, можно использовать статическую версию метода. Вторым 
аргументом этой версии метода передается используемое регулярное вы¬ 
ражение. Параметры регулярного выражения можно передавать в треть¬ 
ем необязательном аргументе. Если регулярное выражение содержит 
синтаксическую ошибку, будет возбуждено исключение АгдитепіЕхсер- 
ііоп. 
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Если одно и то же регулярное выражение предполагается использовать 
для обработки большого числа строк, можно повысить эффективность 
программного кода, создав сначала объект Педех, а затем вызывая метод 
ЗрШ() этого объекта. Единственным обязательным аргументом этого 
метода является испытуемая строка. 

При вызове метода 5рШ() экземпляра класса Редех ему можно передать 
дополнительные аргументы, ограничивающие количество разбиений. 
Если опустить эти аргументы, строка будет разбита по всем имеющим¬ 
ся совпадениям. Статическая версия метода ЗрШ() не принимает эти 
дополнительные аргументы, она всегда разбивает строку по всем имею¬ 
щимся совпадениям. 

Во втором необязательном аргументе, следующем за испытуемым тек¬ 
стом, можно передать максимальное число разбиений. Например, вы¬ 
зов гедехОЬ].ЗрШ(зиЬ]есІ, 3) вернет массив, содержащий не более трех 
строк. Метод ЗрШО попытается отыскать два совпадения с регуляр¬ 
ным выражением и вернет массив, содержащий текст перед первым 
совпадением, текст между двумя совпадениями и текст после второго 
совпадения. Все остальные возможные совпадения в строке будут игно¬ 
рироваться и попадут в последнюю строку массива. 

Если число совпадений в строке окажется недостаточным, чтобы до¬ 
стигнуть указанного предела, метод 5рШ() выполнит разбиение по 
всем найденным совпадениям и вернет массив, количество строк в ко¬ 
тором будет меньше указанного. Вызов гедехОЬ].ЗрШ(зиЬ]еШ 1) вообще 
не выполнит ни одного разбиения и вернет массив с единственным 
элементом, в котором будет храниться оригинальная строка. Вызов 
гедехОЬ].ЗрШ(зиЬ]ес1і, 0) выполнит разбиение по всем имеющимся сов¬ 
падениям, как если бы метод ЗрШ() был вызван без второго аргумента. 
Если во втором аргументе передать отрицательное число, метод ЗрШ() 
возбудит исключение АгдитепІОиШНапдеЕхсерШп. 

Когда методу передается второй аргумент, определяющий максималь¬ 
ное число строк в возвращаемом массиве, можно также указать необя¬ 
зательный третий аргумент, определяющий позицию в испытуемой 
строке, с которой следует начинать поиск совпадений. По сути, число, 
которое передается в третьем аргументе, представляет собой число сим¬ 
волов в начале испытуемого текста, которые должны игнорироваться 
регулярным выражением. Этот аргумент может использоваться, когда 
строка уже обработана до некоторой позиции и необходимо выполнить 
разбиение оставшейся части строки. 

Символы, пропущенные регулярным выражением, тем не менее будут 
добавлены в возвращаемый массив. Первая строка в массиве - это вся 
подстрока, предшествующая первому обнаруженному после указанной 
начальной позиции совпадению, включая символы, находящиеся пе¬ 
ред начальной позицией. Значением третьего аргумента должно быть 
число в диапазоне от нуля до длины испытуемой строки. В противном 
случае метод ЗрШ() возбудит исключение АгдитепІіОиШНапдеЕхсерІііоп. 
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В отличие от метода МаІсІі(), метод ЗрШ() не позволяет указывать длину 
подстроки, в которой можно выполнять поиск соответствий с регуляр¬ 
ным выражением. 

Если первое совпадение будет обнаружено в начале испытуемой строки, 
первый элемент возвращаемого массива будет содержать пустую стро¬ 
ку. Если в испытуемой строке имеются два совпадения, следующие не¬ 
посредственно друг за другом без какого-либо текста между ними, 
в возвращаемый массив будет добавлена пустая строка. Если последнее 
совпадение будет обнаружено в конце испытуемой строки, последний 
элемент возвращаемого массива будет содержать пустую строку. 

іаѵа 

Если требуется выполнить разбиение единственной строки, можно вос¬ 
пользоваться методом зрШО данной строки. Этот метод принимает ре¬ 
гулярное выражение в виде единственного аргумента. Данный метод 
просто вызывает метод Ра1:Іегп.сотрі1е( Ѵедех'^.зрШ(зиЬ]ес'ЕЗі:гіпд). 

Если необходимо выполнить разбиение множества строк, следует соз¬ 
дать объект РаИегп с помощью фабричного метода Ра1^егп.сотрі1е(). При 
таком подходе достаточно будет скомпилировать регулярное выраже¬ 
ние всего один раз. После этого можно будет вызывать метод зрШ() по¬ 
лученного экземпляра класса РаИегп, передавая ему испытуемую стро¬ 
ку в качестве аргумента. В данном случае нет необходимости создавать 
экземпляр класса МаІсПег. Класс Маіхііег вообще не имеет метода зрШ(). 

Метод РаІіегп.зрШО может принимать второй необязательный аргу¬ 
мент, а метод ЗІгіпд.зрШО - нет. Во втором аргументе можно указать 
максимальное число фрагментов, которое требуется получить. Напри¬ 
мер, вызов Ра11:егп.5р1і1:(зиЬ]еЩ, 3) вернет массив, содержащий не более 
трех строк. Метод зрШО попытается отыскать два совпадения с регу¬ 
лярным выражением и вернет массив, содержащий текст перед первым 
совпадением, текст между двумя совпадениями и текст после второго 
совпадения. Все остальные возможные совпадения в строке будут игно¬ 
рироваться и попадут в последнюю строку массива. Если число совпа¬ 
дений в строке окажется недостаточным, чтобы достигнуть указанного 
предела, метод зрШ() выполнит разбиение по всем найденным совпаде¬ 
ниям и вернет массив, количество строк в котором будет меньше ука¬ 
занного. Вызов РаІІегп.зрШСзиУесІ:, 1) вообще не выполнит ни одного 
разбиения и вернет массив с единственным элементом, в котором будет 
храниться оригинальная строка. 

Если первое совпадение будет обнаружено в начале испытуемой строки, 
первый элемент возвращаемого массива будет содержать пустую строку. 
Если в испытуемой строке имеются два совпадения, следующие непо¬ 
средственно друг за другом без какого-либо текста между ними, в воз¬ 
вращаемый массив будет добавлена пустая строка. Если последнее сов¬ 
падение будет обнаружено в конце испытуемой строки, последний эле¬ 
мент возвращаемого массива будет содержать пустую строку. 
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Однако ^ѵа ликвидирует пустые строки в конце массива. Если необхо¬ 
димо, чтобы пустые строки включались в массив, методу РаІ^егп.зрШО 
следует передать отрицательное число во втором аргументе. В этом слу¬ 
чае разбиение будет выполнено по всем найденным совпадениям, и пус¬ 
тые строки в конце массива останутся на месте. Фактическая величина 
второго аргумента, когда в нем передается отрицательное число, не 
имеет значения. В языке Заѵа невозможно одновременно ограничить 
число разбиений и оставить пустые строки в конце массива. 

Іаѵа5сгір{ 

Чтобы выполнить разбиение строки в языке ЗаѵаЗсгірІ, можно исполь¬ 
зовать метод зрШ() этой строки. Чтобы получить массив строк, содер¬ 
жащий максимальное число разбиений, достаточно передать методу 
зрШ() единственный аргумент с регулярным выражением. Во втором 
необязательном аргументе можно указать максимальное число строк 
в возвращаемом массиве. Это должно быть положительное число. Если 
в этом аргументе передать ноль, метод вернет пустой массив. Если опу¬ 
стить второй аргумент или передать в нем отрицательное число, строка 
будет разбита по всем найденным совпадениям. Наличие флага /д в ре¬ 
гулярном выражении (рецепт 3.4) не оказывает никакого влияния. 

В браузерах, совместимых со стандартами, метод зрШО включает в воз¬ 
вращаемый массив совпадения с сохраняющими группами. Более того, 
он даже добавляет значения ипсІе'ГіпесІ для сохраняющих групп, не уча¬ 
ствовавших в сопоставлении. Если присутствие этих дополнительных 
элементов в возвращаемом массиве нежелательно, используйте только 
несохраняющие группы (рецепт 2.9) в регулярных выражениях, пере¬ 
даваемых методу зрШО. 

Все основные веб-браузеры в настоящее время правильно реализуют ме¬ 
тод Зіігіпд.ргоІюІуре.зрШО- В старых браузерах имеются различные про¬ 
блемы с сохраняющими группами и смежными совпадениями. Для тех, 
кому необходима реализация Зіігіпд.ргоІо^уре.зрШО, следующая стан¬ 
дартам и работоспособная во всех браузерах, Стивен Левитан (8ѣеѵеп 
ЬеѵіНіап) предложил решение, доступное по адресу кіір://Ыо§МеѵепІе- 
ѵіікап.сот/агскіѵез/сгозз-Ъгоьизег-зрШ. 

ХКедЕхр 

При использовании библиотеки ХКедЕхр в ЗаѵаЗсгірі;, вызывайте 

ХНедЕхр.зрШ(зиЬ]ес1;, гедех) вместо зиЬзесі.зрІЩгедех), чтобы получить 
стандартные результаты во всех браузерах. 


Для разбиения строки на массив строк по совпадениям с регулярным 
выражением можно использовать функцию ргед_зрШ(). Регулярное 
выражение передается этой функции в первом аргументе, а испытуе- 
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мая строка - во втором. Если второй аргумент опущен, в качестве испы¬ 
туемой строки используется специальная переменная $_. 

В третьем необязательном аргументе можно указать максимальное чис¬ 
ло фрагментов, которое требуется получить. Например, вызов ргед_ 
зрШ($гедех, $зиЬ]есІ, 3) вернет массив, содержащий не более трех строк. 
Функция ргед_зрП1:() попытается отыскать два совпадения с регуляр¬ 
ным выражением и вернет массив, содержащий текст перед первым 
совпадением, текст между двумя совпадениями и текст после второго 
совпадения. Все остальные возможные совпадения в строке будут игно¬ 
рироваться и попадут в последнюю строку массива. Если число совпа¬ 
дений в строке окажется недостаточным, чтобы достигнуть указанного 
предела, функция ргед_зрИ1:() выполнит разбиение по всем найденным 
совпадениям и вернет массив, количество строк в котором будет мень¬ 
ше указанного. Если опустить третий аргумент или передать в нем зна¬ 
чение -1, строка будет разбита по всем найденным совпадениям. 

Если первое совпадение будет обнаружено в начале испытуемой строки, 
первый элемент возвращаемого массива будет содержать пустую строку. 
Если в испытуемой строке имеются два совпадения, следующие непо¬ 
средственно друг за другом без какого-либо текста между ними, в воз¬ 
вращаемый массив будет добавлена пустая строка. Если последнее сов¬ 
падение будет обнаружено в конце испытуемой строки, последний эле¬ 
мент возвращаемого массива будет содержать пустую строку. По умол¬ 
чанию функция ргед_зрП1:() включает пустые строки в возвращаемый 
массив. Если наличие пустых строк в массиве нежелательно, можно пе¬ 
редать константу РВЕ0_5РІ_ІТ_М0_ЕМРТѴ в четвертом аргументе. 

РегІ 

Для разбиения строки на массив строк по совпадениям с регулярным 
выражением можно использовать функцию зрШ(). Оператор регуляр¬ 
ного выражения передается этой функции в первом аргументе, а испы¬ 
туемая строка - во втором. 

В третьем необязательном аргументе можно указать максимальное 
число фрагментов, которое требуется получить. Например, вызов 
зрШС/гедех/, зиЬ]есі, 3) вернет массив, содержащий не более трех строк. 
Функция зрШ() попытается отыскать два совпадения с регулярным 
выражением и вернет массив, содержащий текст перед первым совпа¬ 
дением, текст между двумя совпадениями и текст после второго совпа¬ 
дения. Все остальные возможные совпадения в строке будут игнориро¬ 
ваться и попадут в последнюю строку массива. Если число совпадений 
в строке окажется недостаточным, чтобы достигнуть указанного преде¬ 
ла, функция зрШ() выполнит разбиение по всем найденным совпаде¬ 
ниям и вернет массив, количество строк в котором будет меньше ука¬ 
занного. 

Если опустить третий аргумент, интерпретатор РегІ самостоятельно опре¬ 
делит соответствующий предел. Если результат присваивается перемен- 
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ной-массиву, как это реализовано в решении к данному рецепту, строка 
будет разбита по всем найденным совпадениям. Если результат при¬ 
сваивается списку скалярных переменных, будет установлен предел, 
равный числу переменных в списке плюс один. Другими словами, будет 
выполнена попытка заполнить все переменные, а возможный остаток 
строки будет отброшен. Например, инструкция ($опе, $Г\а/о, $Шее) = 
зрШ(/,/) выполнит разбиение содержимого переменной $_ на 4 части. 

Если первое совпадение будет обнаружено в начале испытуемой строки, 
первый элемент возвращаемого массива будет содержать пустую строку. 
Если в испытуемой строке имеются два совпадения, следующие непо¬ 
средственно друг за другом без какого-либо текста между ними, в воз¬ 
вращаемый массив будет добавлена пустая строка. Если функции зрШ 
передается третий необязательный параметр, имеющий достаточно 
большое значение или равный -1, и последнее совпадение будет обнару¬ 
жено в конце испытуемой строки, последний элемент возвращаемого 
массива будет содержать пустую строку, в противном случае пустая 
строка включаться в конец массива не будет. 

РуіЬоп 

Чтобы разбить строку с помощью регулярного выражения, можно нс- 
пользовать функцию зрШО из модуля ге. Регулярное выражение пере¬ 
дается этой функции в первом аргументе, а испытуемая строка - во вто¬ 
ром. Глобальная функция зрШ() не позволяет передавать параметры 
регулярного выражения. 

Функция ге.зрШО вызывает функцию ге.сотріІеО, а затем метод зрШ() 
объекта скомпилированного регулярного выражения. Этот метод име¬ 
ет единственный обязательный аргумент - испытуемую строку. 

Обе формы функции зрШО возвращают список с фрагментами текста 
между совпадениями с регулярным выражением. Обе принимают один 
необязательный аргумент, в котором можно указать максимальное 
число разбиений. Если опустить этот аргумент или передать в нем чис¬ 
ло ноль, строка будет разбита по всем найденным совпадениям. Если 
передать положительное число, оно будет определять максимальное ко¬ 
личество совпадений с регулярным выражением, по которым следует 
разбить строку. Возвращаемый список будет содержать на одну строку 
больше, чем указано в аргументе. Последняя строка в списке будет пред¬ 
ставлять неразбитый остаток испытуемой строки после последнего сов¬ 
падения. Если число найденных совпадений окажется меньше указан¬ 
ного значения, строка будет разбита по всем совпадениям без вывода 
сообщения об ошибке. 

КиЬу 

Чтобы разбить испытуемую строку на массив строк по совпадениям с ре¬ 
гулярным выражением, можно вызвать метод зрШО этой строки и пе¬ 
редать ему регулярное выражение в первом аргументе. 
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Метод зрШО может принимать второй необязательный аргумент, в ко¬ 
тором указывается максимальное число фрагментов, которое требуется 
получить. Например, вызов зиЬ]ес1:.зрН1:(ге ) 3) вернет массив, содержа¬ 
щий не более трех строк. Метод зрШО попытается отыскать два совпа¬ 
дения с регулярным выражением и вернет массив, содержащий текст 
перед первым совпадением, текст между двумя совпадениями и текст 
после второго совпадения. Все остальные возможные совпадения в стро¬ 
ке будут игнорироваться и попадут в последнюю строку массива. Если 
число совпадений в строке окажется недостаточным, чтобы достигнуть 
указанного предела, метод зрШО выполнит разбиение по всем найден¬ 
ным совпадениям и вернет массив, количество строк в котором будет 
меньше указанного. Вызов зрШ(ге, 1) вообще не выполнит ни одного 
разбиения и вернет массив с единственным элементом, в котором будет 
храниться оригинальная строка. 

Если первое совпадение будет обнаружено в начале испытуемой строки, 
первый элемент возвращаемого массива будет содержать пустую строку. 
Если в испытуемой строке имеются два совпадения, следующие непо¬ 
средственно друг за другом без какого-либо текста между ними, в воз¬ 
вращаемый массив будет добавлена пустая строка. Если последнее сов¬ 
падение будет обнаружено в конце испытуемой строки, последний эле¬ 
мент возвращаемого массива будет содержать пустую строку. 

Однако КиЪу ликвидирует пустые строки в конце массива. Если необхо¬ 
димо, чтобы пустые строки включались в массив, методу зрШО следу¬ 
ет передать отрицательное число во втором аргументе. В этом случае 
разбиение будет выполнено по всем найденным совпадениям, и пустые 
строки в конце массива останутся на месте. Фактическая величина вто¬ 
рого аргумента, когда в нем передается отрицательное число, не имеет 
значения. В языке КиЬу невозможно одновременно ограничить число 
разбиений и оставить пустые строки в конце массива. 

См. также 

Рецепт 3.20, где демонстрируется код, разбивающий строку с использо¬ 
ванием регулярного выражения и сохраняющий совпадения в массиве. 

3.20. Разбиение строки, сохранение 
совпадений с регулярным выражением 

Задача 

Требуется выполнить разбиение строки с использованием регулярного 
выражения. В результате должен быть получен массив или список строк, 
содержащих фрагменты текста между совпадениями, а также с самими 
совпадениями. 

Предположим, что требуется разбить строку с тегами НТМЬ по этим те¬ 
гам и дополнительно сохранить сами теги. Например, после разбиения 
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строки І*1іке*<Ь>Ьо1сІ</Ь>*апсІ*<і>і1;а1іс</і>*1 : оп1;8 должен получиться мас¬ 
сив из девяти строк: І*1іке«, <Ь>, Ьоісі, </Ь>, *апд*, <і>, ііаііс, </і> и *ГопІз. 

Решение 

С# 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

зІгіпдП ЗрШАггау = Педех.Зрііі:(зиЬзесІЗІ:гіпд, "(<[''<>]*>)"); 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Педех: 

Педех гедехОЬ] = пем Недех(’’(<[~<>]*>)"); 

зі:гіпд[ ] зрШАггау = гедехОЬд. Зр1і1:(зиЬдес1:31:гіпд); 

ѴВ.ЫЕТ 

При обработке небольшого числа строк одним и тем же регулярным вы¬ 
ражением можно использовать статическую функцию: 

Оіт ЗрШАггау = Педех. Зр1і1:(8иЬдесІіЗі:гіпд , "(<[''<>]*>)”) 

В случае использования того же регулярного выражения для обработ¬ 
ки большого числа строк предпочтительнее создать объект Педех: 

Оіт ПедехОЬ] Аз Педех("(<[“<>]*>)”) 

Оіт ЗрШАггау = ПедехОЬ]. 8рШ(ЗиЬ] есІіЗі: гіпд) 

.Іаѵа 

І_із1:<31:гіпд> гезііІИШ = пем Аг гауИз1:<31: гіпд>(); 

РаІіегп гедех = Раііегп.сотрііе(”<[''<>]*>”); 

Маісіпег гедехМаІісОег = гедех. таІісГіег(зиЬд есІіЗі: гіпд); 
іпі Іазіііпсіех = 0; 

\л/Гіі1е (гедехМаІісЬег. ГіпсІ()) { 

гезиШ-ізі. асісКзи у есІіЗі: гіпд. зиЬзІ: гіпд( ІазІІпсіех, гедехМаІісГіег. з1:а гѣ ())); 
гезиНПзі:. аСІсІ (гедехМаІісМе г. д гоир()); 

Іазіііпсіех = гедехМаісііег. епсі (); 

} 

гезиПИзІ:. асісі (зиЬ] есіЗі: гіпд. зиЬзІ гіпд (ІазІІпсІех)); 

.Іаѵа5сгір{ 

гезиіі = зиЬзесЬ. зр1і1;(/(<[ л <>]*>)/); 

ХКедЕхр 

гезиіі = ХНедЕхр. зрШ(зиЬ]ес1:, /(<["<>]*>)/); 

РНР 

$гези11: = ргед_зрШ( '/(<["<>]*>)/', ФзиЬзесИ, -1, РРЕе_5РИТ_0ЕИМ_САРТиРЕ); 
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РегІ 

@гези11; = зрііі: ( т/(<[''<>]*>)/, $зиЬ]ес1:); 

РуіНоп 

При разбиении небольшого числа строк можно использовать глобаль¬ 
ную функцию: 

гезиіі: = ге.зр1і1:("(<[''<>]*>)", зиЬіес!)) 

При многократном использовании одного и того же регулярного выра¬ 
жения предпочтительнее использовать объект скомпилированного ре¬ 
гулярного выражения: 

геоЬ] = ге.сошрі1е("(<[' ч <>]*>)") 
гезиіі: = геоЬ]. зрШ:(зиЬ]ес1:) 

КиЬу 

ИзТ = [] 

Іазііпсіех = 0; 

зиЬ^есІ:. зсап(/<["<>]*>/) {| та1:сИ | 

1із1 « зиЬ]ес1:[1аз1:іпс1ех. .$“. Ьедіп (0)-1 ]; 

Іізі: « $& 

ІазІіпРех = $~.епсІ(0) 

} 

Іізі: « зиЬ^ есі: [ Іазіііпсіех .. зиЬ^есІ:. Іепдіііп() ] 

Обсуждение 

^ЕТ 

Метод Редех. Зр1і1:( ) в платформе .ЫЕТ включает в возвращаемый массив 
текст, совпавший с сохраняющими группами. В версиях .ЫЕТ 1.0 и 1.1 
в массив включается только совпадение с первой сохраняющей груп¬ 
пой. В версиях .ЫЕТ 2.0 и выше совпадения со всеми сохраняющими 
группами включаются в массив в виде отдельных строк. Если требуется 
включить в массив совпадение со всем регулярным выражением, его 
нужно заключить в общую сохраняющую группу. В версиях .ЫЕТ 2.0 
и выше необходимо, чтобы все остальные группы были несохраняющи¬ 
ми, в противном случае совпадения с ними также попадут в массив. 

Сохраняющие группы не участвуют в подсчете совпадений, когда методу 
ЗрШ() передается аргумент, определяющий максимальное число раз¬ 
биений. Вызов гедехОЬз.ЗрШСзиЬзесІ:, 4) с испытуемой строкой и регуляр¬ 
ным выражением, которые приводятся в решении для данного рецепта, 
вернет массив, содержащий семь строк. Среди них будут четыре строки 
с фрагментами перед, между и после первых трех совпадений плюс три 
строки между ними, содержащие совпадения с регулярным выражени¬ 
ем, которые были сохранены сохраняющими группами в регулярном 
выражении. Проще говоря, будет получен массив со строками: І«1іке*, 
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<Ь>, Ьоісі, </Ь>, *апсІ*, <і> и іЕа1іс</і>*ГоігЕз. Если бы регулярное выраже¬ 
ние содержало 10 сохраняющих групп, вызов гедехОЬз.ЗрІЩзиЩес^, 4) 
в версии .ЫЕТ 2.0 или выше вернул бы массив с 34 строками. 

В ^ЕТ отсутствует возможность исключить совпадения с сохраняю¬ 
щими группами из массива. Единственное решение заключается в том, 
чтобы заменить все именованные и нумерованные сохраняющие груп¬ 
пы на несохраняющие группы. Это легко можно сделать, передав пара¬ 
метр РедехОр'Еіопз.ЕхрІісіІіСарІіиге и заменив в регулярном выражении 
все именованные сохраняющие группы обычными (то есть группами 
в простых круглых скобках). 

Іаѵа 

Метод РаІІегп.зрШО в языке ^ѵа не обеспечивает возможность добав¬ 
ления совпадений с регулярным выражением в возвращаемый массив. 
Вместо этого можно адаптировать решение из рецепта 3.12, чтобы до¬ 
бавлять в список не только совпадения с регулярным выражением, но 
и фрагменты текста между совпадениями. Чтобы получить текст меж¬ 
ду совпадениями, в решении используется дополнительная информа¬ 
ция о совпадениях, как описывается в рецепте 3.8. 

ІаѵаБсгірІ 

Функция зігіпд. зрШ() в языке ^ѵа8сгір1 не предоставляет возмож¬ 
ность управлять включением совпадений с регулярным выражением 
в массив. В соответствии со стандартом ^ѵаЗсгір! в массив должны до¬ 
бавляться совпадения со всеми сохраняющими группами. 

В настоящее время все основные веб-браузеры правильно реализуют ме¬ 
тод ЗІгіпд.ргоІіоІуре.зрШО. Старые версии браузеров не всегда коррект¬ 
но добавляли сохраняющие группы в возвращаемый массив. Для тех, 
кому необходима реализация Зігіпд.ргоІоІіуре.зрІіІіО, следующая стан¬ 
дартам и работоспособная во всех браузерах, Стивен Левитан (8іеѵеп 
ЬеѵііЬап) предложил решение, доступное по адресу кир://Ыо§.8іеѵепІе- 
ѵШіапхот/агсНіѵе8/сго88-Ъгои)8ег-8рШ . 

ХКедЕхр 

При использовании библиотеки ХКедЕхр в ^ѵа8сгірі вызывайте 
ХВедЕхр.зрІЩзиЬзесІ:, гедех) вместо зиЬдес1;.зрШ(гедех), чтобы получить 
стандартные результаты во всех браузерах. 


Если функции ргед_зрШ() передать в четвертом аргументе значение 
РРЕС_8РЕІТ_0ЕЕІМ_САРТІ)ЯЕ, в возвращаемый массив будут включены сов¬ 
падения с сохраняющими группами. Значение РРЕ0_ЗР11Т_0ЕПМ_САРТиЯЕ 
можно объединить со значением РНЕ0_ЗРЕІТ_М0_ЕМРТѴ с помощью опера¬ 
тора |. 
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Сохраняющие группы не участвуют в подсчете совпадений, когда 
функции ргед_зрИ1:() передается третий аргумент, определяющий мак¬ 
симальное число разбиений. Если установить предел числа разбиений, 
равный четырем, для испытуемой строки и регулярного выражения, 
которые приводятся в решении для данного рецепта, функция вернет 
массив, содержащий семь строк. Среди них будут четыре строки 
с фрагментами перед, между и после первых трех совпадений плюс три 
строки между ними, содержащие совпадения, которые были сохране¬ 
ны сохраняющими группами в регулярном выражении. Проще говоря, 
будет получен массив со строками: Ыіке% <Ь>, Ьоісі, </Ь>, *апсі*, <і> 
и 1і:а1іс</і>*1 = оп1;5- 

РегІ 

Функция зрШ() в языке РегІ включает в массив совпадения со всеми 
сохраняющими группами. Если потребуется включить в массив совпа¬ 
дение со всем регулярным выражением, его нужно целиком заключить 
в сохраняющую группу. 

Сохраняющие группы не участвуют в подсчете совпадений, когда функ¬ 
ции зрШО передается аргумент, определяющий максимальное число 
разбиений. Вызов зрШ(/(<[''<>]*>)/, $зиЬ]ес1, 4) с испытуемой строкой 
и регулярным выражением, которые приводятся в решении для данно¬ 
го рецепта, вернет массив, содержащий семь строк. Среди них будут че¬ 
тыре строки с фрагментами перед, между и после первых трех совпаде¬ 
ний плюс три строки между ними, содержащие совпадения с регуляр¬ 
ным выражением, которые были сохранены сохраняющими группами 
в регулярном выражении. Проще говоря, будет получен массив со стро¬ 
ками: І*1іке*, <Ь>, Ьоісі, </Ь>, •апсі*, <і> и 11:а1іс</і>*'Гоп1:з. Если бы регуляр¬ 
ное выражение содержало 10 сохраняющих групп, вызов зрШ($гедех, 
$зиЬ]есІ, 4) вернул бы массив с 34 строками. 

В языке РегІ отсутствует возможность исключить совпадения с сохра¬ 
няющими группами из массива. Единственное решение заключается 
в том, чтобы заменить все именованные и нумерованные сохраняющие 
группы на несохраняющие группы. 

РуіЬоп 

Функция зрИ1() в языке РуНюп включает в массив совпадения со все¬ 
ми сохраняющими группами. Если потребуется включить в массив сов¬ 
падение со всем регулярным выражением, его нужно целиком заклю¬ 
чить в сохраняющую группу. 

Сохраняющие группы не участвуют в подсчете совпадений, когда функ¬ 
ции зрШ() передается аргумент, определяющий максимальное число 
разбиений. Вызов зрН1:("(<[''<>]*>)", зиЬ]ес1:, 3) с испытуемой строкой 
и регулярным выражением, которые приводятся в решении для данного 
рецепта, вернет массив, содержащий семь строк. Среди них будут четы¬ 
ре строки с фрагментами перед, между и после первых трех совпадений 
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плюс три строки между ними, содержащие совпадения с регулярным 
выражением, которые были сохранены сохраняющими группами в ре¬ 
гулярном выражении. Проще говоря, будет получен массив со стро¬ 
ками: "I Ііке", "<Ь>", "ЬоІсГ, ”</Ь>”, " апсі ", "<і>" и "І1:а1іс</і> Гопіз”. Если 
бы регулярное выражение содержало 10 сохраняющих групп, вызов 
зрШ(гедех, зиЬ]ес1, 3) вернул бы массив с 34 строками. 


В языке РуІЬоп отсутствует возможность исключить совпадения с со¬ 
храняющими группами из массива. Единственное решение заключает¬ 
ся в том, чтобы заменить все именованные и нумерованные сохраняю¬ 
щие группы на несохраняющие группы. 


КиЬу 

Метод Зігіпд.зрШОв языке КиЬу не предоставляет возможность управ¬ 
лять включением в массив совпадений с регулярным выражением. 
Вместо этого можно адаптировать решение из рецепта 3.11, чтобы до¬ 
бавлять в список не только совпадения с регулярным выражением, но 
и фрагменты текста между совпадениями. Чтобы получить текст меж¬ 
ду совпадениями, в решении используется дополнительная информа¬ 
ция о совпадениях, как описывается в рецепте 3.8. 


См. также 

Рецепт 2.9, где приводится описание сохраняющей и несохраняющей 
группировок. 

Рецепт 2.11, где рассказывается об именованных сохраняющих груп¬ 
пах. При разбиении строк некоторые языки программирования добав¬ 
ляют в массив также совпадения с сохраняющими группами. 

Рецепт 3.19, где демонстрируется код, разбивающий строку без добав¬ 
ления в массив совпадений с регулярным выражением. 


3.21. Построчный поиск 

Задача 

Традиционные инструменты &гер применяют регулярное выражение 
к одной строке текста за один раз и отображают строки, совпавшие (или 
не совпавшие) с регулярным выражением. Допустим, что имеется неко¬ 
торый массив строк или многострочный текст, который требуется обра¬ 
ботать именно таким способом. 

Решение 

С# 

Если имеется многострочный текст, его сначала необходимо поместить 
в массив так, чтобы каждый элемент массива содержал единственную 
строку: 
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зігіпд[] Ііпез = Яедех.Зрііі(зиЬ^ ес1:51: гіпд, "\г?\п"); 

Затем выполнить обход строк в массиве: 

Ведех гедехОЬ] = пеѵѵ Ведех("гедех растет"); 

■Гог (іпі і = 0; і < Ііпез. 1_епдіГі; і++) { 
іі (гедехОЬ]. ІзМаісГі(1іпез[і])) { 

// Строка 1іпез[і] соответствует регулярному выражению 
} еізе { 

// Строка 1іпез[і] не соответствует регулярному выражению 

} 

} 

ѴВ.МЕТ 

Если имеется многострочный текст, его сначала необходимо поместить 
в массив так, чтобы каждый элемент массива содержал единственную 
строку: 

Оіт І_іпез = Ведех. Зр1іі(ЗиЬіесіЗігіпд, "\г?\п") 

Затем выполнить обход строк в массиве: 

Оіт ВедехОЬ] Аз №\л/ Ведех("гедех раТТегп”) 

Рог і Аз Іпіедег = 0 То І_іпез. 1_епдіГі - 1 
ІР ВедехОЬ]. ІзМаІісІл (Ипез( і )) ТГіеп 

'Строка І_іпез[і] соответствует регулярному выражению 

Еізе 

'Строка І_іпез[і] не соответствует регулярному выражению 
Епсі ір 

№хі 

^аѵа 

Если имеется многострочный текст, его сначала необходимо поместить 
в массив так, чтобы каждый элемент массива содержал единственную 
строку: 

Зігіпд[] Ііпез = зиЬ]есі5ігіпд.зр1іі(’Лг?\п"); 

Затем выполнить обход строк в массиве: 

Раііегп гедех = Раііегп. сотрі1е(" гедех раііет"); 

МаісГіег гедехМаісГіег = гедех. таісГіег(""); 

Рог (іпі і = 0; і < Ііпез. ІепдРГі; і++) { 
гедехМаісГіег. гезеі(1іпез[і]); 
іР (гедехМаісІпег. РіпсІО) { 

// Строка 1іпез[і] соответствует регулярному выражению 
} еізе { 

// Строка 1іпез[і] не соответствует регулярному выражению 

} 

} 
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іаѵаБсгірІ 

Если имеется многострочный текст, его сначала необходимо поместить 
в массив так, чтобы каждый элемент массива содержал единственную 
строку. 

ѵаг Ііпез = зиЬ^ес!;. зрііі: (Дг?\п/) ; 

Затем выполнить обход строк в массиве: 

ѵаг гедехр = /гедех раТТегп /; 

■Гог (ѵаг і = 0; і < Ііпез. ІепдГіі; і++) { 
іГ (1іпез[і]. таІісГі(гедехр)) { 

// Строка 1іпез[і] соответствует регулярному выражению 
} еізе { 

// Строка 1іпез[і] не соответствует регулярному выражению 

} 

} 

РНР 

Если имеется многострочный текст, его сначала необходимо поместить 
в массив так, чтобы каждый элемент массива содержал единственную 
строку: 

$1іпез = ргед_зрН1:( ’/\г?\п/*, $зиЬ]есі) 

Затем выполнить обход строк в массиве: 

ГогеасГ ($1іпез аз $1іпе) { 

іГ (ргед_таГсІі( '/гедех раТіегп/' , $1іпе)) { 

// Строка Ііпе соответствует регулярному выражению 
} еізе { 

// Строка Ііпе не соответствует регулярному выражению 

} 

} 

РегІ 

Если имеется многострочный текст, его сначала необходимо поместить 
в массив так, чтобы каждый элемент массива содержал единственную 
строку: 

@1іпез = 5р1іі(т/\г?\п/, $зиЬ]ес1і) 

Затем выполнить обход строк в массиве: 

ГогеасП $1іпе (@1іпез) { 

іГ ($1іпе =~ т /гедех раіТегп/) { 

# Строка $1іпе соответствует регулярному выражению 
} еізе { 

# Строка $1іпе не соответствует регулярному выражению 

} 

} 
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РуіИоп 

Если имеется многострочный текст, его сначала необходимо поместить 
в массив так, чтобы каждый элемент массива содержал единственную 
строку: 

Ііпез = ге. зрііі: ("\г?\п", зи^есі); 

Затем выполнить обход строк в массиве: 

геоЬ] = ге. сотрі1е( "гедех раііегп") 

Тог Ипе іп 1іпез[ : ]: 

іі геоЬ^. зеагсіі(ііпе) : 

# Строка Ііпе соответствует регулярному выражению 
еізе : 

# Строка Ипе соответствует регулярному выражению 


КиЬу 

Если имеется многострочный текст, его сначала необходимо поместить 
в массив так, чтобы каждый элемент массива содержал единственную 
строку: 

Ііпез = зиЬ]ес1:. зрііі: (/\г?\п/) 

Затем выполнить обход строк в массиве: 

ге = /гедех раііегп/ 

Ііпез. еасіі { | Ііпе | 
іі Ііпе =~ ге 

# Строка Ііпе соответствует регулярному выражению 

еізе 

# Строка Ііпе не соответствует регулярному выражению 

} 

Обсуждение 

При необходимости выполнять построчную обработку данных можно 
обезопасить себя от большого числа возможных проблем, если разбить 
данные на отдельные строки, вместо того чтобы пытаться работать с од¬ 
ной большой строкой, содержащей символы перевода строки. После это¬ 
го можно применять нужное регулярное выражение к каждой строке 
в массиве, не беспокоясь о том, что будет обнаружено совпадение одно¬ 
временно с несколькими строками. Кроме того, такой подход упрощает 
отслеживание взаимоотношений между строками. Например, можно 
с помощью одного регулярного выражения отыскивать строки с заголов¬ 
ками, а с помощью другого - строки нижнего колонтитула. После этого 
при обнаружении разделяющих строк можно использовать третье регу¬ 
лярное выражение для поиска интересующих строк данных. На пер¬ 
вый взгляд реализация такого алгоритма может показаться слишком 
трудоемкой, однако он достаточно простой, а программный код, реали¬ 
зующий его, обладает высокой эффективностью. Создать одно регуляр¬ 
ное выражение, которое будет отыскивать заголовки, данные и нижние 
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колонтитулы, намного сложнее, и такое выражение будет работать на¬ 
много медленнее. 

Кроме того, при построчной обработке текста легко можно инвертиро¬ 
вать регулярное выражение. Нет простого способа реализовать в регу¬ 
лярном выражении условие «соответствует строке, которая не содер¬ 
жит это или это слово». Легко инвертировать можно только символь¬ 
ные классы. Но когда текст уже разбит на строки, поиск строк, которые 
не содержат некоторое слово, становится таким же простым делом, как 
поиск текстового литерала во всех строках и удаление строк, в которых 
присутствует искомое слово. 

В рецепте 3.19 показано, как легко можно разбить строку, превратив ее 
в массив строк. Регулярному выражению <\г\п> соответствуют пары 
символов Ш и [Гр], которые разделяют строки в МісгозоН АТѴІпсІолѵз. Ре¬ 
гулярному выражению <\п> соответствует символ [Цр], разделяющий 
строки в системе ІЖІХ и ее производных, таких как Ілпих и даже 08 X. 
Поскольку эти два регулярных выражения, по сути, являются про¬ 
стым текстом, для разбиения текста на строки можно даже вообще не 
использовать их. Если язык программирования позволяет разбивать 
строки по текстовым литералам, обязательно следует использовать эту 
возможность. 

Если заранее точно неизвестно, как разделяются строки в используе¬ 
мых данных, можно выполнить разбиение текста с помощью регуляр¬ 
ного выражения <\г?\п>. Так как здесь символ [СЙ] объявлен необязатель¬ 
ным, это регулярное выражение будет соответствовать как |СЙІ_Р| , грани¬ 
цам строк в ДѴіпсіолѵз, так и [Пр], границам строк в ІШІХ. 

Как только строки окажутся в массиве, их легко можно будет обойти 
в цикле. Внутри цикла можно будет определить, какие строки соответ¬ 
ствуют регулярному выражению, а какие нет, следуя рецепту 3.5. 

См. также 

В этом рецепте используется прием, представленный в двух рецептах 
выше. Рецепт 3.11, где демонстрируется код, выполняющий обход всех 
совпадений, которые были найдены регулярным выражением в испы¬ 
туемой строке. Рецепт 3.19, где демонстрируется код, с помощью регу¬ 
лярного выражения разбивающий строку и помещающий результат 
в массив или список. 

3.22. Конструирование парсера 

Задача 

Имеется приложение, хранящее некоторые данные в таблице. Необхо¬ 
димо добавить в это приложение возможность импортировать данные 
из файлов, формат которых пока не поддерживается приложением. 
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Для данного формата не существует стандартных парсеров, поэтому не¬ 
обходимо реализовать собственный. 

Новый формат файлов следует следующим правилам: 

1. Новая таблица начинается с ключевого слова ІаЫе. Файл может со¬ 
держать любое число таблиц, но не менее одной. 

2. Все строки, следующие за ключевым словом ІіаЫе, составляют заго¬ 
ловок таблицы. Однако таблицы могут не иметь заголовков. 

3. Новая строка в таблице начинается с ключевого слова гою. Строки не 
могут существовать за пределами таблиц. Таблица может содержать 
любое число строк, но не менее одной. 

4. За ключевым словом гем не может следовать простая текстовая 
строка. 

5. Новая ячейка начинается с ключевого слова ееіі. Ячейка не может 
существовать за пределами строки таблицы. Строка таблицы может 
содержать любое число ячеек, в том числе и нулевое. Разные строки 
в одной таблице могут содержать разное число ячеек. 

6. Любая текстовая строка, следующая за ключевым словом сеіі, яв¬ 
ляется содержимым ячейки. Ячейка может не иметь содержимого. 

7. Текстовая строка - это последовательность из нуля и более символов, 
заключенных между символами процента. Текстовая строка без ка¬ 
ких-либо символов между символами процента - это пустая тексто¬ 
вая строка. Два идущих подряд символа процента в текстовой строке 
обозначают один символ процента. Никакие другие символы, отлич¬ 
ные от символа процента, не имеют специального значения в тексто¬ 
вых строках. Разрывы строк и другие управляющие символы, нахо¬ 
дящиеся между символами процента, являются частью текстовой 
строки. 

8. Если за ключевым словом ІаЫе или сеіі следуют две или более тек¬ 
стовых строк, они образуют отдельные текстовые строки в заголовке 
таблицы или в содержимом ячейки, независимо от того, имеются ли 
символы разрыва строк между ними в исходном файле. 

9. Ключевые слова не чувствительны к регистру. Все слова - Сеіі, сеіі, 
СЕН и СеН - интерпретируются как ключевое слово сеіі. 

10. Любые пробельные символы между ключевыми словами и/или стро¬ 
ками должны игнорироваться. Пробельные символы обязательно 
должны использоваться для отделения друг от друга соседних клю¬ 
чевых слов. Пробельные символы обязательно должны использо¬ 
ваться для отделения соседних текстовых строк. Пробельные симво¬ 
лы не требуются для отделения ключевых слов от текстовых строк. 

11. Любые символы, не являющиеся частью ключевого слова или тек¬ 
стовой строки, должны интерпретироваться как ошибка. 

Ниже приводится пример содержимого файла, иллюстрирующего эти 

правила: 
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ІаЫе %Рігзі; 1аЫе% 

го\л/ сеіі %А1% сеіі %В1% се11%С1%се1Ш)1% 

ВОІл/ гоѵі СЕТЬ %Предыдущая строка пуста% 

сеіі %ВЗ% 

гоѵѵ 

сеіі %А4% %вторая строка% 

СЕІІ %В4% 

%вторая строка% 
сеіі %С4 
вторая строка% 
го ѵі сеіі %%%текст%%% 
сеіі %% 
сеіі %%%% 
сеіі %%%%%% 

которое может быть представлено в табличной форме, как показано 
в табл. 3.1. 

Таблица 3.1. Таблица, которая должна получиться из файла примера 


А1 

В1 

С1 

т 

(не определена) 

(не определена) 

(не определена) 

(не определена) 

Предыдущая строка 
пуста 

ВЗ 

(не определена) 

(не определена) 

А4 

В4 

С4 

(не определена) 

вторая строка 

вторая строка 

вторая строка 


%текст% 

(пустая) 

% 

%% 


Решение должно определять функцию, выполняющую парсинг содер¬ 
жимого файла, целиком хранящегося в одной строковой переменной. 
Функция в обязательном порядке должна использовать имеющиеся 
в приложении структуры ВЕСТаЫе, ВЕСВсм и НЕССеІІ, предназначенные 
для хранения таблиц, импортированных из файлов. 

Решение 

С# 

зіаііс ВЕСТаЫе Ітрог1:ТаЫе(з1:гіпд ГіІеСопІеЫз) { 

ВЕСТаЫе ІаЫе = пиіі; 

ЯЕСПоѵѵ го ѵѵ = пиіі; 

НЕССеІІ сеіі = пиіі; 

Ведех гедехОЬ] = пем Ведех( 

\Ь(?<кеуиогсІ>1:аЫе| гоѵѵ|се11)\Ь 

| %(?<з!гіпд>[~%]*(?:%%[~%]*)*)% 

| (?<еггог>\5+)", 

ВедехОрІіопз. ІдпогеСазе | ВедехОрІіопз. ІдпогеРаІІегпІл/ІііІіезрасе); 

МаІсО таІсВ = гедехОЬ]. Ма1сВ(Гі1еСоп1:еп1:з); 

\л/Гіі1е (таІсИ.Зиссезз) { 
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іТ (таТсР. Сгоирз["кеуѵѵогР"]. Зиссезз) { 
зТгіпд кеуѵѵогР = таіісіп .Огоирз[ "кеуѵ^огсі "]. Ѵаіие. ТоЬои/е г(); 
іТ (кеуѵѵогР == "ТаРІе”) { 

ТаРІе = пеѵѵ ВЕСТаРІеО; 
гоѵѵ = пиіі; 
сеіі = пиіі; 

} еізе іТ (кеуѵѵогР == "гоѵѵ”) { 
іТ (ТаЫе == пиіі) 

ТРгоѵѵ пеѵѵ ЕхсерТіоп(”Іпѵа1іР сіаіа: гоѵѵ ѵѵіТРоиТ ТаЫе"); 
гоѵѵ = ТаЫе. аРРВоѵѵ(); 
сеіі = пиіі; 

} еізе ІТ (кеуѵѵогР == "сеіі") { 
іТ (гоѵі == пиіі) 

ТРгоѵѵ пеѵѵ ЕхсерТіоп("ІпѵаІіР РаТа: сеіі ѵѵіТРоиТ гоѵѵ"); 
сеіі = гоѵѵ.аРРСеЩ); 

} еізе { 

ТРгоѵѵ пеѵѵ ЕхсерТіоп("Рагзег Рид: ипкпоѵѵп кеуѵѵогР"); 

} 

} еізе іТ (таТсР.Сгоирз["зТгіпд”].Зиссезз) { 
зТгіпд сопіепТ = таТсР.6гоирз["зТгіпд"].Ѵаіие.Вер1асе("%%", "%"); 
іТ (сеіі != пиіі) 
сеіі.аРРСопТепТ(сопТепТ); 
еізе іТ (гоѵѵ ! = пиіі) 

ТРгоѵѵ пеѵѵ ЕхсерТіоп("Іпѵа1іР РаТа: зТгіпд аТТег гоѵѵ кеуѵѵогР"); 
еізе іТ (ТаЫе != пиіі) 

ТаЫе. аРРСарТіоп(сопТепТ); 
еізе 

ТРгоѵѵ пеѵѵ ЕхсерТіоп(”Іпѵа1іР РаТа: зТгіпд ЬеТоге ТаЫе кеуѵѵогР"); 

} еізе іТ (таТсР.Сгоирз[”еггог"].Зиссезз) { 

ТР гоѵѵ пеѵѵ ЕхсерТіоп("Іпѵа1іР РаТа: " + таТсР.6гоирз["еггог"].Ѵаіие); 
} еізе { 

ТР гоѵѵ пеѵѵ ЕхсерТіоп( "Рагзег Рид: по сарТигіпд дгоир таТсРеР ”); 

} 

таТсР = таТсР. №хТМаТсР(); 

> 

іТ (ТаРІе == пиіі) 

ТР гоѵѵ пеѵѵ ЕхсерТіоп("Іпѵа1іР РаТа: ТаРІе кеуѵѵогР тіззіпд"); 
геТигп ТаРІе; 

} 

ѴВ.ЫЕТ 

РипсТіоп ІтрогТТаР1е(ВуѴа1 РіІеСопТепТз Аз ЗТгіпд) 
йіт ТаРІе Аз ВЕСТаРІе = ЫоТРіпд 
Оіт Роѵѵ Аз ВЕСВоѵѵ = ЬІоТРіпд 
діт Сеіі Аз ВЕССеІІ = ИоТРіпд 
Оіт ВедехОР] Аз №ѵѵ Ведех( 

\Р(?<кеу\л/огР>ТаР1е | гоѵѵ| сеіі)\Р" & 

"| %(?<зТгіпд>[~%]*(?:%%[“%]*)*)%" &_ 

"| (?<еггог>\3+)", 

ВедехОрТіопз. ІдпогеСазе Ог ВедехОрТіопз. ІдпогеРаТТегпІлІРіТезрасе) 
йііті МаТсРВезиІТз Аз МаТсР = ВедехОР;) . МаТсР(РіІеСопТепТз) 
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1л/Рі1е МаІісОПезиІІіз. Зиссезз 

ІГ МаІісГіПезиІІіз. Огоирз( ”кеу\л/огсі”). Зиссезз ТРеп 
йіт Кеуѵѵогсі Аз ЗГгіпд = МаІісГіПезиІІіз.6гоирз("кеу\л/огсі”).Ѵаіие 
Кеу\л/о гсі = Кеу\л/огР.ТоІ_оѵ\/ег() 

ІГ Кеу\л/огсі = ”ТаЫе" ТРеп 
ТаЫе = №ѵ\/ ВЕСТаРІе 
Во\л/ = Ыоіііпіпд 
Сеіі = МоГРіпд 
ЕІзеІГ Кеу\л/огсі = ’ТоѵГ ТМеп 
ІГ ТаЫе Із МоГРіпд ТГіеп 

ТГіго\л/ ЕхсерГіопС'ІпѵаІісІ сІаГа: го ѵі міГРоиГ ГаЫе") 

ЕпсІ ІГ 

Вом = ТаРІе. асІсІВо\л/ 

Сеіі = МоГРіпд 

ЕІзеІГ Кеу\ѵогсі = "сеіі” ТГіеп 
ІГ Вом Із МоГРіпд ТРеп 

ТГіго\л/ Меѵѵ ЕхсерГіопС'ІпѵаІісІ СІаГа: сеіі міГРоиГ го ѵі”) 

ЕпсІ ІГ 

Сеіі = Во\л/. аРРСеІІ 
Еізе 

ТРгом Ием ЕхсерГіоп("Рагзег Рид: ипкпомп кеуѵѵ/огсі") 

ЕпсІ ІГ 

ЕІзеІГ МаГсРВезиІГз.СгоирзС’зігіпд").Зиссезз ТРеп 
Оіт СопГепГ Аз ЗГгіпд = МаГсРВезиІГз. СгоирзС'зГгіпд’’) .Ѵаіие 
СопГепГ = СопГепГ.Вер1асе("%%", "%") 

ІГ Сеіі ІзМоГ МоГРіпд ТРеп 
Сеіі. асІсІСопГепГ (СопГепГ) 

ЕІзеІГ Во\л/ ІзИоГ МоГРіпд ТРеп 

ТРгом Мем ЕхсерГіопС’ІпѵаІісІ СІаГа: зГгіпд аГГег гоѵі кеумогр") 
ЕІзеІГ ТаЫе ІзИоГ МоГРіпд ТРеп 
ТаЫе. асІсіСарГіоп (СопГепГ) 

Еізе 

ТРгом Мем ЕхсерГіоп("Іпѵа1іс1 СІаГа: зГгіпд ЬеГоге ГаЫе кеумогсГ) 
ЕпсІ ІГ 

ЕІзеІГ МаГсРВезиІГз.СгоирзС’еггог").Зиссезз ТРеп 
ТРгом Ием ЕхсерГіопС’ІпѵаІісІ СІаГа’’) 

Еізе 

ТРго\л/ Ием ЕхсерГіопС'Рагзег Рид: по сарГигіпд дгоир таГсРеР”) 

ЕпсІ ІГ 

МаГсРВезиІГз = МаГсРВезиІГз.МехГМаГсР() 

ЕпсІ Іл/Рііе 

ІГ ТаРІе Із МоГРіпд ТРеп 

ТРгом Меѵѵ ЕхсерГіопС’ІпѵаІісІ сІаГа: ГаРІе кеуѵюгсі тіззіпд") 

ЕпсІ ІГ 

ВеГигп ТаРІе 
ЕпсІ РипсГіоп 

Іаѵа 

ВЕСТаРІе ІтрогГТаР1е(ЗГгіпд ГіІеСопГепГз) ГРгоѵѵз ЕхсерГіоп { 

ВЕСТаРІе ГаРІе = пиІІ; 

ВЕСВом го\л/ = пиІІ; 



3.22. Конструирование парсера 


289 


ВЕССеІІ сеіі = пиіі; 

Ііпаі іпі д гоиркеуѵл/огсі = 1; 

Ііпаі іпі дгоирзі:гіпд = 2; 

Ііпаі іпі: дгоиреггог = 3; 

Раііегп гедех = Раѣ1;егп.сотрі1е( 

” \\Ь( 1:аЫе | гоѵѵ/1 сеіі)\\Ь\п" + 

"I %([~%]*(?:%%Г%]0*)%\п" + 

"I (\\3+)", 

Раііегп. САЗЕ_ІМЗЕМЗІТІѴЕ | Раііегп.СОММЕМГЗ); 

МаісРег гедехМаісРег = гедех.таісРег(ІіІеСопіепіз); 
мРіІе (гедехМаісРег. 1іпР()) { 

іI (гедехМаісРег. зііагі:(дгоиркеу\л/огсі) >= 0) { 

31:гіпд кеумог 6 = гедехМаісРег. дгоир(дгоиркеумогр). ІоІ_омегСазе(); 
іI (кеумогр.едиа1з("іаР1е")) { 

ІаРІе = пем РЕСТаЫеО; 
гом = пиіі; 
сеіі = пиіі; 

} еізе іI (кеумогсі. едиа1з("гом")) { 
іі (ІаРІе == пиіі) 

1:1ігом пем Ехсерііоп("Іпѵаіісі сіаіа: гом мііРоиі ІаРІе”); 
го\л/ = ІаРІе. асШом(); 
сеіі = пиіі; 

} еізе іі (кеумогр.едиа1з("се1Г')) { 
іі (гом == пиіі) 

1:Ііго\л/ пем Ехсер1:іоп("Іпѵаіісі сіаіа: сеіі мііРоиі гоѵѵ"); 
сеіі = гоѵѵ. асІсІСеІІ (); 

} еізе { 

ІР гом пем Ехсерііоп("Рагзег Рид: ипкпомп кеумогсГ); 

} 

} еізе іі (гедехМаісРег.зіагі(дгоирзігіпд) >= 0) { 

31:гіпд сопіепі = гедехМаісРег.дгоир(дгоирзігіпд); 
сопіепі = сопіепі:. герІасеАИ("%%", ”%"); 
іі (сеіі != пиіі) 
сеіі. асІсІСопІепі(сопіепІ); 
еізе іI (гом != пиіі) 

ІРгом пем Ехсерііоп("Іпѵаіісі сіаіа: 31:гіпд аііег гом кеумогР"); 
еізе іI (ІаРІе != пиіі) 

ІаРІе. ас! сІСарІіоп(сопіепі); 
еізе 

ІРгом пем Ехсеріііоп("Іпѵаіісі сіаіа: 31:гіпд Ьеіоге ІаРІе кеумогр"); 
} еізе іI (гедехМаісРег.зіагі(дгоиреггог) >= 0) { 

ІРгом пем Ехсерііоп("Іпѵаіісі сіаіа: " + 

гедехМаісРег.дгоир(дгоиреггог)); 

} еізе { 

ІРгом пем Ехсерііоп("Рагзег Рид: по саріигіпд дгоир таісРесГ); 

} 

} 

іі (іаРІе == пиіі) 

іРгом пем Ехсерііоп("Іпѵаіісі сіаіа: ІаРІе кеумогР тіззіпд"); 
геіигп ІаРІе; 

} 
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іаѵаЗсгірі 

Рипсііоп ітроПіТаЫе(‘ГіІеСопІіепІіз) { 
ѵаг іаРІе = пиіі; 
ѵаг гоу/ = пиіі; 
ѵаг сеіі = пиіі; 
ѵаг д го и р кеуу/огсі = 1; 
ѵаг дгоирзігіпд = 2; 
ѵаг дгоиреггог = 3; 

ѵаг тугедехр = /\Ь(ІіаЫе| гоѵѵ|сеіі)\Ь|%([''%]*(? :%%[~%]*)*)%| (\3+)/ід; 
ѵаг таісР; 
ѵаг кеуу/огсі; 
ѵаг сопііепі:; 

ѵѵ/МіІе (таісР = тугедехр.ехесС’ШеСопІепІіз)) { 

ІР (та1:сИ[дгоиркеуѵѵогсі] ! == ипсІеРіпес!) { 
кеуу/огсі = таісР[дгоиркеууюгсІ].РоІ-ОУ/егСа5е(); 

ІР (кеуу/огсі == "РаРІе") { 

РаРІе = пеу/ ЯЕСТаЫеО; 
гоу/ = пиіі; 
сеіі = пиіі; 

} еізе ІР (кеуу/огсі == "гоѵі") { 

ІР (ІРаРІе) 

РРго ѵі пеу/ Еггог("Іпѵа1іР РаРа: го\ѵ у/іРРоиР РаРІе"); 
гоѵі = РаРІе. аРсІЙом(); 
сеіі = пиіі; 

} еізе ІР (кеуу/огсі == "сеіі") { 

11 (! гоу/) 

РРгоу/ пеу/ Еггог("Іпѵаіісі РаРа: сеіі у/іРРоиР гоу/"); 
сеіі = гоу/. асІсІСеІІ (); 

} еізе { 

РРгоу/ пеу/ Еггог("Рагзег Рид: ипкпоу/п кеуу/огсі"); 

} 

} еізе ІР (та1:сІі[дгоирзі:гіпд] !== ипРеРіпеР) { 
сопРепР = таРсР[дгоирзі:гіпд]. гер1асе(/%%/д, ”%"); 

ІР (сеіі) 

сеіі. асІсІСопІіепІ: (сопііепі:); 
еізе ІР (гоу /) 

РРгоу/ пеу/ Еггог("Іпѵаіісі РаРа: зРгіпд аРРег гоу/ кеуу/огсі”); 
еізе іР (РаРІе) 

РаРІе. асІсІСарІііоп (сопііепі:); 
еізе 

РРгоу/ пеу/ Еггог(”Іпѵа1іс1 РаРа: зРгіпд Ьеіоге РаРІе кеуу/огсі"); 

} еізе ІР (таРсР[дгоиреггог] ! == ипРеРіпеР) { 

РРгоу і пеу/ Еггог("Іпѵа1ісІ РаРа: " + таРсР[дгоиреггог]); 

} еізе { 

РРгоу / пеу/ Еггог(”Рагзег Рид: по сарРигіпд дгоир таРсРеР"); 

} 

} 

іР (ІРаРІе) 

РРгоу/ пеу/ Еггог("Іпѵаіісі РаРа: РаРІе кеуу/огсі тіззіпд"); 
геРигп іаРІе; 


} 
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ХКедЕхр 

■Гипсіііоп ітрогГТаЬІе(ГіІеСопГепГз) { 
ѵаг ГаЫе = пиіі; 
ѵаг го ѵі = пиіі; 
ѵаг сеіі = пиіі; 

ѵаг тугедехр = ХРедЕхр( ”(?іх)\\Ь(?<кеуѵѵогсІ>і:аЫе | гоѵѵ| се11)\\Ь" + 

| %(?<зГгіпд>[~%]*(?:%%[~%]*)*)%" + 

| (?<еггог>\\5+)”); 

ХВедЕхр.ГогЕасЬ(Гі1еСопГепГз, тугедехр, ‘Гипсіііоп(таіісіі) { 
ѵаг кеуѵѵо гсі; 
ѵаг сопГепГ; 

ІГ (таГсЬ. кеуѵѵогсі !== ипсіеііпесі) { 
кеумогсі = таісГі. кеуѵѵо гсі. Го1.оѵѵегСазе(); 
іГ (кеу\л/огсі == "ГаЫе”) { 

ІаЬІе = пеѵ/ ВЕСТаЫе(); 
гоѵѵ = пиіі; 
сеіі = пиіі; 

} еізе іГ (кеуш гсі == "том") { 
іГ (ІГаЫе) 

іГі гоѵѵ пеѵѵ Ег го г (” Іпѵаіісі сіаГа: гоѵѵ ѵѵіГЬоиГ ГаЫе"); 
гоѵѵ = ГаЫе. а(Шоѵѵ(); 
сеіі = пиіі; 

} еізе іГ (кеу\л/огЬ == "сеП") { 
іГ (! гоѵѵ) 

ГЬгоѵѵ пе\л/ Еггог("Іпѵаіісі сіаГа: сеіі ѵѵіГЬоиГ гоѵѵ"); 
сеіі = гоѵѵ. асІсІСеІІ (); 

} еізе { 

ГЬгоѵѵ пеѵѵ Еггог(”Рагзег Ьид: ипкпоѵѵп кеуѵѵо гсі"); 

> 

} еізе іГ (таісГі.зГгіпд !== ипсіеГіпесІ) { 
сопГепГ = таГсЬ.зГгіпд.гер1асе(/%%/д, "%"); 
іГ (сеіі) 

сеіі. асІсІСопГепГ(сопГепГ); 
еізе іГ (гоѵѵ) 

іГі гоѵѵ пеѵѵ Ег го г (** Іпѵаіісі сіаГа: зГгіпд аГГег гоѵѵ кеуѵѵогсГ); 
еізе іГ (ГаЫе) 

ГаЫе. асІсІСарГіоп(сопГепГ); 
еізе 

ГЬгоѵѵ пеѵѵ Ег го г( "Іпѵаіісі сіаГа: зГгіпд ЬеГоге ГаЫе кеуѵѵогсГ); 
} еізе іГ (таГсЬ. еггог ! == ипсІеГіпес!) { 

ГМго\л/ пеѵѵ Еггог("Іпѵа1ісі сіаГа: " + таГсЬ.еггог); 

} еізе { 

ГМго\л/ пеѵѵ Еггог("Рагзег Ьид: по сарГигіпд дгоир таГсМесГ); 

} 

}); 

іГ (ІГаЫе) 

ГЬгоѵѵ пеѵѵ Еггог("Іпѵаіісі сіаГа: ГаЫе кеумогсі тіззіпд”); 
геГигп ГаЫе; 
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РегІ 

зиЬ ітрогііаЬІе { 
ту $іі1есопіепіз = зЬііі; 
ту $іаЫе; 
ту $го\л/; 
ту $се11; 

\л/Иі1е ($іі1есопіепіз =“ 

т/ \Ь(іаЬ1е| гоѵ/|се11)\Ь 
| %([“%]*(?:%%["%]*)*)% 

| (\8+)/іхд) { 

іі (сіе^іпесі($1)) { # Ключевое слово 
ту $кеу\л/огсІ = 1с($1); 
іі ($кеумогсІ ед "іаЬІе") { 

$іаЬ1е = пем РЕСТаЫеО; 
ипсІе'Г $гом; 
ипсІе'Г $се11; 

} е1зі"Г ($кеу\л/огд ед "гом") { 
іі (! деііпед($іаЬ1е)) { 
діе "Іпѵаіід сіаііа: гом \л/і1:Мои1: іаЬІе"; 

} 

$гоѵѵ = $іаЬ1е->аддВоѵ\/(); 
ипсІе'Г $се11; 

} еІзіГ ($кеу\л/огд ед "сеіі") { 
іі (! с!еГіпес1($го\ѵ)) { 
діе "Іпѵаіід Ьаіа: сеіі мііЬоиі гоѵ\Г; 

} 

$се11 = $ го\л/->аддСе11 (); 

} еізе { 

діе "Рагзег Ьид: ипкпо\л/п кеумогд"; 

} 

} еізіі (деГіпед($2)) { # Текстовая строка 
ту $сопіепі = $2; 

$сопіепі =~ з/%%/%/д; 
іі (деГіпед($се11)) { 

$се11->аддСопіепі ($сопіепі); 

} еізіі (деГіпед($го\л/)) { 
діе "Іпѵаіід даіа: зігіпд аііег гом кеуѵѵогд"; 

} еізіі (деііпед($іаЬ1е)) { 
$ІаЫе->аддСарііоп($сопіепІ); 

} еізе { 

діе "Іпѵаіід даіа: зігіпд Ьеіоге іаЬІе кеуѵѵогд"; 

} 

} еізіі (деііпед($3)) { # Ошибка 
діе "Іпѵаіід даіа: $3"; 

} еізе { 

діе "Рагзег Ьид: по саріигіпд дгоир таісЬед"; 

} 

} 

іі (!де!іпед($іаЬ1е)) { 
діе "Іпѵаіід даіа: іаЬІе кеумогд тіззіпд”; 

} 
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геТигп $ТаЫе; 

> 

РуіИоп 

сІе'Г ітрогііаЫе(ііІесопіепіз) : 
іаЬІе = Мопе 
го\л/ = Мопе 
сеіі = Мопе 

іог таісЬ іп ге. ііпсіііег( 

г. (?іх)\Ь(?Р<кеумогсІ>іаЫе | гом| сеіі )\Ь 

| %(?Р<зігіпд>[~%]*(? :%%["%]*)*)% 

| (?Р<еггог>\3+)., іііесопіепіз) : 

іТ таісЬ. дгоир( "кеумогсі") != Ыопе: 
кеу\л/о гсі = таіісіп . д гоир( "кеуѵѵогсі” ). 1о\л/ег() 
іТ кеумогсі == "іаЬІе": 

ИаЫе = РЕСТаЫеО 
гом = Иопе 
сеіі = Мопе 
еііі кеумогсі == "гом": 
іТ іаЬІе == Мопе: 

гаізе Ехсерііоп( "Іпѵаіісі сіаіа: гом мііЬоиі іаЬІе”) 
го м = іаЬІе.аЬсЖом() 
сеіі = Мопе 

еііі кеумогсі == "сеіі": 
іТ гом == Мопе: 

гаізе Ехсерііоп( "Іпѵаіісі сіаіа: сеіі мііЬоиі гом") 
сеіі = гом. асІсІСеІІ () 
еізе: 

гаізе Ехсерііоп("Рагзег Ьид: ипкпомп кеумогсі") 
еііі таісЬ.дгоир("зігіпд") != Мопе: 
сопіепі = таісЬ.дгоир("зігіпд”).гер1асе("%%", "%") 
іТ сеіі != Мопе: 

сеіі. асІсІСопіепі(сопіепі) 
еііі гом != Мопе: 

гаізе Ехсерііоп("Іпѵа1ісІ сіаіа: зігіпд аііег гом кеумогсі") 
еііі іаЫе ! = Мопе: 

іаЬІе. асІсІСарііоп(сопіепі) 
еізе: 

гаізе Ехсерііоп("Іпѵа1іс1 сіаіа: зігіпд Ьеіоге іаЬІе кеумогсі") 
еііі таісіі.дгоир(”еггог") != Мопе: 

гаізе Ехсерііоп("Іпѵаіісі сіаіа: ” + таісЬ.дгоирС’еггог”)) 
еізе: 

гаізе Ехсерііоп("Рагзег Ьид: по саріигіпд дгоир таісЬесГ) 
іі іаЫе == Мопе: 

гаізе Ехсерііоп("Іпѵаіісі сіаіа: іаЬІе кеумогсі тіззіпд”) 
геіигп іаЫе 


РНР 

іипсііоп ітрогіТаЫе($іі1еСопіепіз) { 
ргед_таісЬ_а11( 

’/ \Ь(?Р<кеумогсІ>іаЫе| гом|се11)\Ь 
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| ( ?Р<зігіпд>%[ "%]*(?:%%[-%]*)*%) 

| (?Р<еггог>\3+)/іх’ , 

$Гі1еСопіепіз, $таісРез, РВЕ0_РАТТЕНЫ_0П0ЕП); 

$іаР1е - N111Ь; 

$гом = МІЛ_І_; 

$се11 = МІЛ_1_; 

Гог ($і = 0; $і < соипі($паісРез[0]); $і++) { 

ІГ ($таісРез[ ’ кеумогР ’ ][$і] != ИІІИ) { 

$кеумогР = зігіо1омег($таісРез['кеумогР’][$і]); 
іГ ($кеумогР == "іаРІе") { 

$ГаЫе = пем РЕСТаЫеО; 

$ гом = мли 
$се11 = №Л_І_; 

} еІзеіГ ($кеумогР == "гом") { 

ІГ ($ГаЫе == МІІП) 

ГРгом пем ЕхсерГіоп("Іпѵа1іс1 сІаГа: гом мііРоиі ГаЫе”); 

$гом = $іаР1е->аРРВом(); 

$се11 = МП; 

} еІзеіГ ($кеумогР == "сеіі") { 
іГ ($гом == ми.) 

ГРгом пем Ехсерііоп("Іпѵа1іс1 Раіа: сеіі мііРоиі гом"); 

$се11 = $гом->аРРСе11(); 

} еізе { 

ГРгом пем ЕхсерГіоп("Рагзег Рид: ипкпомп кеумогсГ); 

} 

} еІзеіГ ($таісРез[ ’зГгіпд’ ][$і] != МІЛ_І_) { 

$сопіепГ = $таісРез[’зігіпд 1 ][$і]; 

$сопіепі = зиРзіг($сопіепі, 1, зГг1еп($сопіепГ)-2); 

$сопіепі = зіг_гер1асе($сопГепГ); 
іГ ($се11 ! = МІЛ_І_) 

$се11->аРРСопіепі($сопіепі); 
еІзеіГ ($гом ! = МІІП) 

ГРгом пем Ехсерііоп("Іпѵа1іР Раіа: зігіпд аГГег гом кеумогР"); 
еІзеіГ ($ГаЫе != N111Ь) 

$іаР1е->аРРСарііоп($сопіепі); 

еізе 

ГРгом пем Ехсерііоп("Іпѵа1іР Раіа: зігіпд ЬеГоге ГаЫе кеумогР"); 
} еІзеіГ ($таісРез[ ’еггог’ ][$і] != МІЛ.І.) { 

ГРгом пем Ехсерііоп(”Іпѵа1іР Раіа: " + $таісРез[ ’еггог’ ][$і]); 

} еізе { 

ГРгом пем Ехсерііоп(”Рагзег Рид: по саріигіпд дгоир таісРеР"); 

} 

} 

іГ ($іаР1е == N1111) 

ГРгом пем Ехсерііоп(”Іпѵа1іР Раіа: іаРІе кеумогР тіззіпд"); 
геіигп $іаР1е; 

} 

КиЬу 

РеГ ітрогііаРІе(ГіІесопіепіз) 
іаРІе = піі 
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ГСМ = ПІ1 

сеіі = піі 
дгоиркеумогсі = 0; 
дгоирзТгіпд = 1; 
дгоиреггог = 2; 

гедехр = / \Ь(ТаЫе| гом|се11)\Ь 

| %(["%]*(? :%%[''%]*)*)% 

| (\5+)/іх 

ТіІесопТепТз. зсап(гедехр) сіо |таТсЬ| 
іТ таіісіт [дгоиркеу\л/о гсі ] 
кеумогсі = таТсЬ[д гои р кеуѵѵо гсі] . сіоѵѵпсазе 
іТ кеуѵѵогсі == "ТаЫе” 

ТаЫе = НЕСТаЫе. пем() 
гоѵѵ = піі 
сеіі = піі 

еізіі кеуѵѵогсі == "гоѵѵ” 
іі ТаЫе.піІ? 

гаізе ”Іпѵаіісі сІаТа: гоѵѵ ѵѵіТЬоиТ ТаЫе” 
епсі 

гоѵѵ = ТаЫе. ас!сЖо\л/() 
сеіі = піі 

еІзіТ кеу\л/огсі == "сеіі” 
іТ го\л/. піі? 

гаізе "Іпѵаіісі сіаіа: сеіі ѵѵіТЬоиТ гем" 
епсі 

сеіі = гоѵѵ. асІсІСеІІ () 
еізе 

гаізе "Рагзег Ьид: ипкпоѵѵп кеуѵѵогсі" 
епсі 

еІзіТ поТ таТсЬ[дгоирзТгіпд].піі? 
сопТепТ = таТсЬ[дгоирзТгіпд].дзиЬ("%%”, "%") 
іТ поТ сеіі.піі? 

сеіі. асІсІСопТепТ(сопТепТ) 
еІзіТ пот го\л/. піі? 

гаізе "Іпѵаіісі сіаіа: зТгіпд аТТег го м кеуѵѵо гсі ” 
еІзіТ поТ ТаЫе. піі? 

ТаЫе. асІсІСарТіоп(сопТепТ) 
еізе 

гаізе "Іпѵаіісі сІаТа: зТгіпд ЬеТоге ТаЫе кеуѵѵо гсі ” 
епсі 

еІзіТ поТ таТсЬ[дгоиреггог].піі? 

гаізе "Іпѵаіісі СІаТа: " + таТсИ.дгоир(”еггог") 
еізе 

гаізе "Рагзег Ьид: по сарТигіпд дгоир таТсЬес!" 
епсі 
епсі 

іТ ТаЫе. піі? 

гаізе "Іпѵаіісі ЬаТа: ТаЫе кеуѵѵогсі тіззіпд" 
епсі 

геТигп ТаЫе 
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Обсуждение 

Самый простой способ реализовать парсер - выделять лексемы с помо¬ 
щью регулярного выражения и анализировать их в программном коде. 

Под выделением лексем понимается поиск в файле лексем, которые яв¬ 
ляются наименьшими синтаксическими элементами. В соответствии 
с описанием формата файла лексемами являются: три ключевых слова, 
текстовые строки, заключенные в символы процента, пробельные сим¬ 
волы между ключевыми словами и текстовыми строками и непробель¬ 
ные символы за пределами ключевых слов и текстовых строк. Создать 
регулярное выражение, соответствующее каждой из этих лексем, не со¬ 
ставляет никакого труда. 

\Ь(?<кеу\л/огсІ>і:аЫе| гом|се11)\Ь 
| %(?<з^гіпд>[ ''%]*(?:%%["%]*)*)% 

| (?<еггог>\8+) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

\Ь(?Р<кеуѵ\югсІ>і:аЫе| гоѵу | сеіі )\Ь 
| %(?Р<з1:гіпд>[ ~%]*(? :%%["%]*)*)% 

| (?Р<еггог>\8+) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: РСКЕ 4 и выше, Регі 5.10, РуІЬоп 

\Ь(1аЫе| гоѵу | сеіі )\Ь 
| %(["%]*(?:%%["%]*)*)% 

I (\3+) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

\Ь( 1:аЫе | го\л/1 сеіі )\Ь !%([''%]*+(?:%%['*%]*+)*+)%| (\8+) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Если в цикле применить данное регулярное выражение к содержимому 
файла примера, оно выделит каждое ключевое слово и каждую тексто¬ 
вую строку. Если применить его к файлу, содержащему недопустимые 
символы, каждая последовательность недопустимых символов будет 
выделена в отдельное совпадение. Регулярное выражение не совпадает 
с пробельными символами между ключевыми словами и текстовыми 
строками, потому что парсеру не требуется обрабатывать их. Метасимво¬ 
лы границ слов, окружающие список ключевых слов, - это все, что не¬ 
обходимо, чтобы выделить из содержимого файла ключевые слова, раз¬ 
деленные пробельными символами. Для поиска каждого типа лексем 
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используется отдельная сохраняющая группа; это упрощает их иден¬ 
тификацию в программном коде. 

Чтобы сделать программный код более удобочитаемым там, где диалек¬ 
ты регулярных выражений поддерживают режим свободного формати¬ 
рования и сохраняющую группировку, используются режимы свобод¬ 
ного форматирования и нечувствительности к регистру символов. Меж¬ 
ду представленными регулярными выражениями нет никаких функ¬ 
циональных отличий. 

Сохраняющая группа, совпадающая с текстовыми строками, не вклю¬ 
чает окружающие их символы процента. Благодаря этому в программ¬ 
ном коде не приходится удалять эти символы, чтобы получить содержи¬ 
мое совпавших строк. Однако в этом есть один недостаток - когда регу¬ 
лярное выражение сопоставляется с пустой текстовой строкой (два сим¬ 
вола процента, следующих подряд), сохраняющая группа обнаруживает 
совпадение нулевой длины. Поэтому при анализе совпадения с сохра¬ 
няющей группой необходимо интерпретировать совпадение с нулевой 
длиной как допустимое. Например, в решении на языке ^ѵаЗсгірі; для 
этого используется выражение И (та1:с1і[дгоирзі:гіпд] !== ипсІеІЧпесІ), ко¬ 
торое интерпретируется как истинное, если группа нашла совпадение, 
даже если совпадение имеет нулевую длину. Здесь нельзя использовать 
выражение И (та1:сМ[дгоирз1;гіпд] ), потому что для нулевого совпадения 
оно вернет І'аізе. 


Версии Іпіегпеі Ехріогег 8 и ниже не следуют стандарту ^ѵаЗсгірѣ, 
требующему, чтобы группы, не участвовавшие в сопоставлении, 
возвращали значение ипсІеНпесІ. В ІЕ8 такие группы хранят пустые 
строки, что не позволяет отличать их от групп, участвовавших в со¬ 
поставлении и нашедших совпадения нулевой длины. Это означает, 
что решение на ^ѵабсгірі; не будет работать в версиях ІЕ8 и ниже. 
Эта ошибка была исправлена в Іпѣегпеі Ехріогег 9. 

Метод ХНедЕхр.ехесО возвращает объект с результатами сопоставле¬ 
ния, в котором группы, не участвовавшие в сопоставлении, имеют 
значение ипсІе'ГіпесІ независимо от версии браузера. То же относится 
и к методу ХВедЕхр.-РогЕасІіО, который основан на методе ХВедЕхр. 
ехес(). Если вам потребуется получить решение для браузеров, та¬ 
ких как ІЕ8, которые не соответствуют стандартам в этом отноше¬ 
нии, используйте решение на основе библиотеки ХКе^Ехр. 

В РНР функция ргед_та1сіі_а11() сохраняет в массиве значение МІІІ_1_ 
и для сохраняющих групп, обнаруживших совпадение нулевой длины, 
и для сохраняющих групп, не участвовавших в сопоставлении. По этой 
причине решение на языке РНР включает символы процента в совпаде¬ 
ние с группой зігіпд, из-за чего понадобилось добавить строку про¬ 
граммного кода с вызовом функции зиЬз1:г(), удаляющей их. 





298 


Глава 3. Программирование с применением регулярных выражений 


Сам парсер реализован в виде программного кода. Парсер имеет четыре 
разных состояния. По своему состоянию он определяет, какой перемен¬ 
ной - ІіаЫе, гом или сеіі - должно быть присвоено значение. 

1. Пустое состояние: еще ничего не было прочитано. Все переменные - 
ІаЫе, том и сеіі - остаются неинициализированными. 

2. Внутри таблицы: было извлечено ключевое слово ІаЫе. Инициализи¬ 
руется переменная ІаЫе, переменные том и сеіі остаются неинициа¬ 
лизированными. Так как таблица может иметь заголовок, состоя¬ 
щий из произвольного числа текстовых строк, включая нулевое, пар¬ 
серу не требуется переходить в отдельное состояние, чтобы начать 
анализ текстовых строк после ключевого слова ІаЫе. 

3. Внутри строки: было извлечено ключевое слово гом. Инициализиру¬ 
ется переменная гом, при этом переменная ІаЬІе уже должна быть 
инициализирована, а сеіі - нет. 

4. Внутри ячейки: было извлечено ключевое слово сеіі. Все перемен¬ 
ные - ІаЫе, гом и сеіі - инициализированы. Так как ячейка может 
иметь содержимое, состоящее из произвольного числа текстовых 
строк, включая нулевое, парсеру не требуется переходить в отдель¬ 
ное состояние, чтобы начать анализ текстовых строк после ключево¬ 
го слова сеіі. 

При вызове парсера он начинает выполнять итерации по всем совпаде¬ 
ниям с регулярным выражением, проверяет тип найденной лексемы - 
ключевое слово (кеумогсі), текстовая строка (зігіпд) или недопустимый 
текст (еггог)- и обрабатывает эту лексему в зависимости от текущего 
состояния, как показано в табл. 3.2. 

Таблица 3.2. Порядок обработки лексем в зависимости 

от состояния парсера 


Совпадение 


Состояние 


Пустое 

В таблице 

В строке 

В ячейке 

Ключевое 

Создать новую 

Создать новую 

Создать новую 

Создать но¬ 

слово ІаЬІе 

таблицу и из¬ 

таблицу и изме¬ 

таблицу и изме¬ 

вую таблицу 


менить состо¬ 

нить состояние 

нить состояние 

и изменить 


яние на «внут¬ 

на «внутри таб¬ 

на «внутри таб¬ 

состояние на 


ри таблицы» 

лицы» 

лицы» 

«внутри таб¬ 
лицы» 

Ключевое 

Ошибка: недо¬ 

Добавить стро¬ 

Добавить стро¬ 

Добавить 

слово гом 

пустимые дан¬ 
ные 

і 

ку в таблицу и 
изменить состо¬ 
яние на «внут¬ 
ри строки» 

ку в таблицу 

строку в таб¬ 
лицу и изме¬ 
нить состоя¬ 
ние на «внут¬ 
ри строки» 
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Совпадение 


Состояние 


Пустое 

В таблице 

В строке 

В ячейке 

Ключевое 

Ошибка: недо¬ 

Ошибка: недо¬ 

Добавить ячей¬ 

Добавить 

слово сеіі 

пустимые дан¬ 

пустимые дан¬ 

ку в строку и из¬ 

ячейку 


ные 

ные 

менить состоя¬ 
ние на «внутри 
ячейки» 

в строку 

Текстовая 

Ошибка: недо¬ 

Добавить стро¬ 

Ошибка: недо¬ 

Добавить со¬ 

строка 

пустимые дан¬ 

ку в заголовок 

пустимые дан¬ 

держимое 


ные 

таблицы 

ные 

в ячейку 

Недопусти¬ 

Ошибка: недо¬ 

Ошибка: недо¬ 

Ошибка: недо¬ 

Ошибка: не¬ 

мый текст 

пустимые дан¬ 

пустимые дан¬ 

пустимые дан¬ 

допустимые 


ные 

ные 

ные 

данные 


См. также 

Приемы, использовавшиеся при составлении регулярного выражения 
в данном рецепте, обсуждаются в главе 2. В рецепте 2.6 рассказывается 
о границах слов, а в рецепте 2.8 - об операторе выбора, использовав¬ 
шемся для сопоставления с ключевыми словами. В рецепте 2.11 описы¬ 
ваются именованные сохраняющие группы. Применение именованных 
групп упрощает чтение и сопровождение регулярных выражений. 

Для выделения текстовых строк, заключенных в символы процента, 
используется прием, описываемый в рецепте 7.8, реализующем поиск 
строк в кавычках в исходном программном коде. Единственное отли¬ 
чие - использование символа процента вместо кавычек. 

Парсер выполняет итерации по всем совпадениям, найденным регуляр¬ 
ным выражением. В рецепте 3.11 описывается, как действует этот ме¬ 
ханизм. 



4 

Проверка и форматирование 


В этой главе содержатся рецепты реализации проверки и форматиро¬ 
вания наиболее типичных видов данных, которые вводятся пользова¬ 
телем. Некоторые решения демонстрируют, как выполнить проверку 
данных, допускающих альтернативные форматы представления, такие 
как почтовые индексы США, которые могут состоять из пяти или девя¬ 
ти цифр. Другие предназначены для преобразования введенных дан¬ 
ных, таких как номера телефонов, даты и номера кредитных карт, в наи¬ 
более общеупотребимые формы представления. 

Эти рецепты помогут вам не только отклонять неправильный ввод, но 
и повысить удобство ваших приложений для пользователей. Напри¬ 
мер, сообщение «Вводить без дефисов и пробелов» рядом с полем ввода 
номера телефона или номера кредитной карты нередко игнорируется 
пользователями. К счастью, во многих случаях регулярные выраже¬ 
ния помогут обеспечить пользователям возможность вводить данные 
в удобных и привычных для них форматах и не потребуют больших 
усилий с вашей стороны. 

В некоторых языках программирования имеются функциональные 
возможности, похожие на те, что предлагаются в ряде рецептов этой 
главы, и реализованные через их собственные классы или библиотеки. 
В конкретных ситуациях бывает предпочтительнее использовать эти 
встроенные возможности, поэтому мы будем указывать на них по ходу 
обсуждения. 

4.1. Проверка адресов электронной почты 

Задача 

Имеется форма на веб-сайте или диалог в приложении, где у пользова¬ 
теля запрашивается адрес электронной почты. Необходимо с помощью 
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регулярного выражения проверить корректность адреса, прежде чем 
пытаться отправить сообщение по этому адресу. Это позволит сокра¬ 
тить число возвратов недоставленных сообщений. 

Решение 

Простое 

Первое решение выполняет очень простую проверку. Оно проверяет 
лишь наличие символа @ в середине и отсутствие пробельных симво¬ 
лов в адресе: 

"\3+@\3+$ 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, Руііюп 

\А\3+@\3+Ѵ 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЪу 

Простая проверка с ограничением 
допустимого набора символов 

Доменное имя , часть адреса, следующая за символом @, может содер¬ 
жать только те символы, которые допускается использовать в домен¬ 
ных именах. Интернационализированные доменные имена не допуска¬ 
ются. Локальный элемент , часть адреса, предшествующая символу @, 
может содержать только те символы, которые допускается использо¬ 
вать в локальных элементах адресов электронной почты, количество 
которых намного меньше, чем могут принимать большинство клиентов 
и серверов электронной почты: 

~[А-20-9+_.-]+@[А-20-9.-]+$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуІЬоп 

\А[А-20-9+_.-]+@[А-20-9.-]+\2 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

Простая проверка без ограничения допустимого 
набора символов в локальном элементе адреса 

Данное регулярное выражение является расширенной версией преды¬ 
дущего и считает допустимым применять в именах пользователей бо¬ 
лее широкий набор символов. Не все программы электронной почты 
в состоянии обрабатывать все эти символы, но мы включили все сим¬ 
волы, которые считаются допустимыми в соответствии с документом 
КЕС 5322, в котором определяется формат сообщений электронной поч¬ 
ты. Среди допустимых символов имеются такие, которые представляют 
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угрозу, например апострофы (’) и символы вертикальной черты (|). Сим¬ 
волы, которые могут иметь специальное назначение, обязательно необ¬ 
ходимо экранировать при передаче адресов электронной почты другим 
программам, чтобы предотвратить такие виды нападений, как инъек¬ 
ция кода 8С}Ь: 

~[А-20-9_! т&'*+/=? ' {| Г~. -]+@[А-20-9. -]+$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуЙюп 

\А[А-20-9_! #$%&’ *+/=? ’ {I Г". -]+@[А-20-9. -]+Ѵ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуіЬоп, КиЬу 

Без ведущих, завершающих 

или следующих друг за другом точек 

В локальных элементах и в доменных именах допускается использо¬ 
вать один или более символов точки, но две точки, следующие подряд, 
считаются недопустимыми. Кроме того, точки не могут быть первыми 
и последними символами в имени пользователя и в доменном имени: 

~[А-20-9_! #$%&' *+/=? ' {I}—-]+(? Л- [А-20-9_! #$%&’ *+/=? * { I Г~-]+^ 
)*@[А-20-9-]+(?:\.[А-20-9-]+)*$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуІЬоп 

\А[А-20-9_!#$%&’*+/=?'{I}”"-]+(?Л-[А-20-9_!#$%&’*+/=?’{I}—-]+и 
) *@>[А-20-9-]+(?: \. [А-20-9-]+) *\2 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЬу 

Имя домена верхнего уровня может содержать 
от двух до шести букв 

Это регулярное выражение добавляет к предыдущим версиям следую¬ 
щее требование к доменному имени: оно должно включать как мини¬ 
мум одну точку и после последней точки могут следовать только алфа¬ 
витные символы. То есть имя домена должно состоять как минимум из 
двух уровней, например зесопсііеѵеі.сот или ТГіігсІІеѵеІ.зесопсііеѵеі. сот. 
Имя домена верхнего уровня (в данных примерах это .сот) должно со¬ 
держать от двух до шести алфавитных символов. Все коды стран, ис¬ 
пользуемые в качестве домена верхнего уровня (.из, . и к и другие), состо¬ 
ят из двух букв. Имена универсальных доменов верхнего уровня обыч¬ 
но содержат от трех (.сот) до шести букв (.тизеит): 

~[\и! #$%&’ *+/=? ’ {I Г~-]+(?: V [\и! #$%&‘ *+/=? * {I Г~-]+)*@и 

(?:[А-20-9-]+\.)+[А-2]{2, 6}$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуЙюп 




4.1. Проверка адресов электронной почты 


303 


\А[\м!#$%&'*+/-? ’ {|} "-]+(?:\.[\м!#$%&'*+/-?'{|} ~~ - ]+) *(<М 
(?:[А-20-9-]+\.)+[А-2]{2,6}\2 

Параметры: нечувствительность к регистру символов 

Диалекты: .ЫЕТ, Заѵа, РСКЕ, Регі, РуЙюп, КиЪу 

Обсуждение 

Об адресах электронной почты 

Если на ваш взгляд для чего-то концептуально простого, такого как 
проверка адресов электронной почты, должно существовать простое ре¬ 
шение, охватывающее все возможные вариации, то вы глубоко не пра¬ 
вы. Этот рецепт представляет собой яркий пример ситуации, когда пре¬ 
жде чем браться за создание регулярного выражения, необходимо точно 
решить, что именно требуется проверить. Не существует универсально¬ 
го правила, согласно которому можно было бы однозначно сказать, ка¬ 
кой адрес является корректным, а какой - нет. Все зависит от определе¬ 
ния, что считать правильным . 

Согласно документу КЕС 5322, в котором определяется синтаксис адре¬ 
сов электронной почты, адрес азсІ1 = @азсІ1 = . азсІ'Г является корректным. Но 
он не будет считаться правильным, если под правильным понимать ад¬ 
рес, который примет сообщение электронной почты. В мире не сущест¬ 
вует домена верхнего уровня азсІ'Г. 

Главная проблема проверки состоит в том, что невозможно точно утвер¬ 
ждать, что адрес . сіое@зоте\л/Гіеге. сот правильный и способен прини¬ 
мать сообщения электронной почты, не попытавшись отправить письмо 
по этому адресу. Но даже после этого нельзя понять, что означает отсут¬ 
ствие ответа: домен зотеѵѵііеге.сот уничтожил послание на несуществую¬ 
щий почтовый ящик, не сообщая об ошибке, или ЗоЬп Бое нажал клави¬ 
шу РеІеГе на клавиатуре, или письмо было уничтожено спам-фильтром. 

Поскольку в любом случае придется проверять существование конкрет¬ 
ного адреса посылкой сообщения на этот адрес, можно ограничиться 
более простым и менее строгим регулярным выражением. Принимать 
некорректные адреса может оказаться предпочтительнее, чем вызы¬ 
вать недовольство пользователей, отвергая корректные адреса. Учиты¬ 
вая это обстоятельство, можно отдать предпочтение регулярному выра¬ 
жению, выполняющему «простую проверку без ограничения допусти¬ 
мого набора символов в локальном элементе адреса». Хотя оно и пропус¬ 
кает то, что не является адресом электронной почты, например #$%@.- , 
тем не менее регулярное выражение само по себе очень простое и быст¬ 
рое, и оно никогда не заблокирует допустимые адреса. 

Если надо избежать слишком большого числа возвратов недоставлен¬ 
ных писем и при этом не блокировать действительные адреса электрон¬ 
ной почты, регулярное выражение «имя домена верхнего уровня может 
содержать от двух до шести букв» будет лучшим выбором. 
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Сложность регулярного выражения также необходимо принимать во 
внимание. Если выполняется проверка ввода пользователя, предпочте¬ 
ние стоит отдать более сложному регулярному выражению, потому что 
пользователь может ввести все что угодно. Но если адреса извлекаются 
из файлов базы данных, в отношении которых заранее известно, что 
они содержат корректные адреса, можно использовать очень простое 
регулярное выражение, которое просто отделяет адреса электронной 
почты от остальных данных. В этом случае достаточно будет даже регу¬ 
лярного выражения из раздела «Простое». 

Наконец, необходимо учитывать пригодность регулярного выражения 
в будущем. В прошлом можно было ограничить имя домена верхнего 
уровня двухбуквенными кодами стран и перечислением универсаль¬ 
ных доменов, например <сот|пе1:|огд|ті1|есІи>. Но так как постоянно по¬ 
являются новые домены, такие регулярные выражения быстро стано¬ 
вятся непригодными. 

Синтаксис регулярного выражения 

Регулярные выражения, представленные в этом рецепте, демонстриру¬ 
ют все основные элементы синтаксиса регулярных выражений в дейст¬ 
вии. Если вы изучили эти элементы в главе 2, то уже можете выпол¬ 
нить 90% заданий, которые лучше всего решаются с помощью регуляр¬ 
ных выражений. 

Все регулярные выражения, кроме представленных в разделе «Про¬ 
стое», требуют, чтобы был включен режим нечувствительности к реги¬ 
стру символов. В противном случае будут допустимы только символы 
верхнего регистра. В этом режиме можно будет вместо <[А-2а-г]> вводить 
<[А-2]>, экономя время на нажатиях клавиш. 

Как отмечалось в рецепте 2.3, метасимвол <\3> является сокращенной 
формой записи символьного класса. Метасимволу <\3> соответствуют 
любые непробельные символы. 

Конструкции <@> и <\. > соответствуют символу @ и точке соответственно. 
Поскольку точка является метасимволом, при ее использовании за пре¬ 
делами символьных классов ее необходимо экранировать символом об¬ 
ратного слэша. Символ @ не имеет специального назначения ни в одном 
из диалектов регулярных выражений, рассматриваемых в этой книге. 
Перечень всех метасимволов, которые необходимо экранировать, при¬ 
водится в рецепте 2.1. 

<[А-20-9.-]> и другие последовательности, заключенные в квадратные 
скобки, являются символьными классами. Данному символьному клас¬ 
су соответствует любая буква от А до 2, любая цифра от 0 до 9, а также 
точка и дефис. Обычно дефис используется в символьных классах для 
определения диапазона, но когда дефис стоит первым или последним 
символом в символьном классе, он интерпретируется как литерал. 
О символьных классах рассказывается в рецепте 2.3, включая возмож¬ 
ность комбинирования с сокращенными формами записи, как в этом 
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случае: <[А-2Ю-9_!#$%&'*Ѵ=?'{| }”"•-]>• Данному классу соответствует сим¬ 
вол слова, а также любой из 19 перечисленных знаков пунктуации. 

Когда символы <+> и <*> используются за пределами символьных клас¬ 
сов, они играют роль квантификаторов. Знак плюс повторяет предше¬ 
ствующий ему элемент один или более раз. В этих регулярных выраже¬ 
ниях квантифицируемыми элементами являются символьные классы, 
а иногда и группы. Таким образом, подвыражению <[А-20-9.-]+> соответ¬ 
ствует одна или более букв, цифр, точек и/или дефисов. 

Например, группе <(?:[А-20-9-]+\.)+> соответствуют один или более алфа¬ 
витных символов, цифр и/или дефисов, за которыми следует один лите¬ 
рал точки. Символ плюс обеспечивает повторение этой группы один 
или более раз. Группа должна обнаруживать как минимум одно совпа¬ 
дение, но может совпадать столько раз, сколько это возможно. Более 
подробно механизм работы символа плюс и других квантификаторов 
описывается в рецепте 2.12. 

<(?:—)> — это несохраняющая группа. Она используется для группиров¬ 
ки части регулярного выражения, благодаря чему можно применять 
квантификатор к группе целиком. Сохраняющая группа <(••■)> делает то 
же самое, но имеет более простой синтаксис. Во всех регулярных выра¬ 
жениях, которые использовались до сих пор, можно заменить все ком¬ 
бинации символов <(?:> на <(>, и результат от этого не изменится. Однако 
нам не требуется сохранять какие-либо части адресов электронной поч¬ 
ты, а несохраняющая группировка обладает большей эффективностью, 
хотя и делает регулярное выражение менее удобочитаемым. Полная ин¬ 
формация о сохраняющих и несохраняющих группах приводится в ре¬ 
цепте 2.9. 

В большинстве диалектов якорные метасимволы <~> и <$> вынуждают ре¬ 
гулярное выражение искать совпадение в начале и в конце испытуемого 
текста соответственно. Если поместить все регулярное выражение меж¬ 
ду этими метасимволами, тем самым будет поставлено требование сов¬ 
падения с регулярным выражением всей испытуемой строки целиком. 

Это очень важное условие при проверке ввода пользователя. Едва ли 
кто-то пожелает принять строку сі гор сІаІаЬазе; -- ]ое@зегѵег.сот ІпаМа! 
в качестве допустимого адреса электронной почты. Без якорных мета¬ 
символов эта строка будет соответствовать всем предыдущим регуляр¬ 
ным выражениям, поскольку они будут обнаруживать совпадение іое@ 
зегѵег.сот в середине данной строки. Подробнее об этом рассказывается 
в рецепте 2.5. Это также объясняет, почему в таких регулярных выра¬ 
жениях должен быть отключен режим «символам Л и $ соответствуют 
границы строк». 

В диалекте регулярных выражений КиЪу символ крышки и знак дол¬ 
лара всегда совпадают с границами строк. Регулярные выражения, ис¬ 
пользующие символ крышки и знак доллара, будут корректно работать 
в языке КиЪу, но только если проверяемая строка не содержит симво¬ 
лов перевода строки. Если строка может содержать символы перевода 
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строки, все регулярные выражения, использующие метасимволы <~> 
и <$>, будут совпадать с адресом электронной почты в строке сі гор сіаІаЬазе; 
-- Щіое@зегѵег.сот|Ег1 ПаПа !, где обозначение [Щ представляет символ пе¬ 


ревода строки. 


Чтобы избежать этого, следует использовать якорные метасимволы <\А> 
и <\2>. Они соответствуют только началу и концу строки независимо от 
используемых режимов во всех диалектах, рассматриваемых в этой кни¬ 
ге, за исключением диалекта ^ѵаЗсгірі;. Диалект ^ѵаЗсгірі; вообще не 
поддерживает метасимволы <\А> и <\2>. Описание этих метасимволов мож¬ 
но найти в рецепте 2.5. 



Проблема выбора между метасимволами <~> и <$> и метасимволами 
<\А> и <\2> свойственна для всех регулярных выражений, осуществ¬ 
ляющих проверку ввода. Многие из них приводятся в этой книге. 
Хотя периодически мы будем напоминать об этой проблеме, тем не 
менее не будем делать это постоянно или приводить отдельные ре¬ 
шения для ^ѵа8сгірѣ и КиЪу в каждом рецепте. Во многих случаях 
мы будем показывать единственное решение, использующее символ 
крышки и знак доллара, и указывать диалект КиЪу в списке совмес¬ 
тимых диалектов. Если вы пользуетесь КиЪу, не забывайте приме¬ 
нять метасимволы <\А> и <Ѵ>, если необходимо избежать совпадения 
с одной строкой в многострочном тексте. 


Пошаговое создание регулярного выражения 

Этот рецепт демонстрирует, как можно создавать регулярное выраже¬ 
ние шаг за шагом. Этот прием особенно удобно применять при использо¬ 
вании интерактивного инструмента тестирования регулярных выраже¬ 
ний, такого как Ке&ехВікЫу. 

Для начала надо загрузить в инструмент набор допустимых и недопус¬ 
тимых примеров данных. В данном случае это могут быть списки до¬ 
пустимых и недопустимых адресов электронной почты. 

Затем пишется простое регулярное выражение, которое совпадает со все¬ 
ми допустимыми адресами. На этом этапе можно игнорировать возмож¬ 
ные совпадения с недопустимыми адресами. Конструкция <~\3+@\5+$> 
уже определяет основную структуру адреса электронной почты: локаль¬ 
ный элемент адреса, символ @ и доменное имя. 

Определив основную структуру текстового шаблона, можно приступать 
к усовершенствованию каждой части структуры, пока регулярное вы¬ 
ражение не прекратит совпадать с недопустимыми данными. Если пред¬ 
полагается применять регулярное выражение к уже существующим 
данным, это задание можно будет выполнить достаточно быстро. Если 
предполагается, что регулярное выражение будет использоваться для 
обработки ввода пользователя, работа над регулярным выражением, по¬ 
ка оно не окажется достаточно строгим, чтобы соответствовать только 
допустимым данным, может оказаться довольно сложным делом. 
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Варианты 

Если задача состоит не в том, чтобы определять, является ли вся вве¬ 
денная строка адресом электронной почты, а в том, чтобы отыскать ад¬ 
реса в объемном тексте, в регулярном выражении нельзя использовать 
метасимволы <~> и <$>. Однако простое удаление их из регулярного выра¬ 
жения не станет правильным решением. В этом случае получившееся 
регулярное выражение, которое требует, чтобы имя домена верхнего 
уровня содержало только алфавитные символы, будет совпадать, на¬ 
пример, с фрагментом іоМп@сіое .сот в строке ]ОІіп@сІое.сот77. Вместо того 
чтобы привязывать совпадение с регулярным выражением к началу 
и к концу испытуемого текста, необходимо указать, что начало локаль¬ 
ного элемента адреса и имя домена верхнего уровня не могут быть ча¬ 
стью более длинных слов. 

Это легко реализуется с помощью пары метасимволов границ слов. То 
есть метасимволы <~> и <$> нужно заменить метасимволом <\Ь>. Напри¬ 
мер, в результате такой замены выражение Г[А-70-9+_.-]+@[А-70-9.-]+$> 
превратится в выражение <\Ь[А-70-9+_.-]+@[А-70-9.-]+\Ь>. 

См. также 

Документ НЕС 5322 определяет структуру и синтаксис сообщений элект¬ 
ронной почты, включая адреса, используемые в сообщениях. Загрузить 
КЕС 5322 можно по адресу кіір://іѵіѵіѵ.іе1/.ог§/г?с/г?с5322Лхі. 

В Википедии приводится исчерпывающий список имен доменов верх¬ 
него уровня по адресу кіір://еп.іѵікіресІіа.ог8/іѵікі/Ы8і_о{_Іпіегпе1_іор- 
Іеѵеісіотаіпз. 1 

В главе 8 приводится множество решений для работы со строками ІШЬ 
и адресами Интернета. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о символь¬ 
ных классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.9 рассказывается о груп¬ 
пировке. В рецепте 2.12 объясняется, как организовать сопоставление 
с повторяющимися комбинациями символов. 

4.2. Проверка и форматирование 
телефонных номеров 

Задача 

Необходимо определить, является ли ввод пользователя номером теле¬ 
фона в одном из общепринятых форматов, используемых в Северной 


1 кіір://ги.іѵікіре(ііа.ог§/іѵікі/Список_доменов_верхнего_уровня. - Прим . перев. 
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Америке, включая код города. В число этих форматов входят: 1234567890, 
123-456-7890, 123.456.7890, 123 456 7890, (123) 456 7890 и их комбинации. Ес¬ 
ли ввод представляет собой допустимый номер телефона, его следует 
привести к стандартному формату (123) 456-7890, чтобы обеспечить еди¬ 
нообразие отображения телефонных номеров. 

Решение 

С помощью регулярного выражения можно легко проверить, ввел ли 
пользователь что-то похожее на допустимый телефонный номер. При¬ 
менив сохраняющие группы для сохранения каждого набора цифр, то 
же самое регулярное выражение можно будет использовать для приве¬ 
дения испытуемого текста к желаемому формату. 

Регулярное выражение 

Л(?([0-9]{3})\)?[-..]?([0-9]{3})[-..]?([0-9]{4})$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Замещающий текст 

($1)42-$3 

Диалекты замещающего текста: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, Регі, РНР 

(\1).\2-\3 

Диалекты замещающего текста: РуѣЬоп, КиЪу 

Пример для С# 

Редех рНопеВедех = 

пеѵ/ Ведех(ГЛ(?([0-9]{3})\)?[-. ]?([0-9]{3})[-. ]?([0-9]{4})$"); 

іГ ( рГіопеВедех . ІзМаІісГі (зиЬ]ес1:31: гіпд)) { 
зігіпд -Гогта1:1:ес1РГіопеЫитЬег = 
рЬопеВедех.Рер1асе(зиЬ]ес1:8і:гіпд І "($1) $2-$3”); 

} еізе { 

// Недопустимый номер телефона 

} 

Пример для .ІаѵаБсгірі 

ѵаг рИопеРедех = /Л(?([0-9]{3})\)?[-. ]?([0-9]{3})[-. ]?([0-9]{4})$/; 

іГ (рНопеНедех. ГезГ(зиЬІесГЗГгіпд)) { 
ѵаг ‘ГогтаІіІіесІРГіопеЫитЬег = 

зиЬ]есГ8Ггіпд.гер1асе(рНопеНедех, "($1) $2-$3"); 

} еізе { 

// Недопустимый номер телефона 

} 
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Другие языки программирования 

Помощь в реализации этого регулярного выражения на других языках 
программирования можно получить в рецептах 3.6, где демонстрирует¬ 
ся, как проверить совпадение регулярного выражения со всей испытуе¬ 
мой строкой, и 3.15, где демонстрируется, как выполнить замену совпа¬ 
дений с повторным использованием фрагментов совпадений. 


Обсуждение 

Этому регулярному выражению соответствуют три группы цифр. Пер¬ 
вая группа может быть заключена в необязательные круглые скобки, 
и за первыми двумя группами могут следовать символы-разделители 
трех видов (дефис, точка или пробел). Ниже приводится структура ре¬ 
гулярного выражения, разбитого на отдельные части, с опущенными 
дополнительными группами цифр: 


\( 

? 

( 

[0-9] 

{3} 

) 

\) 

? 

[-• ] 


$ 


# Проверка совпадения с началом строки. 

# Соответствует литералу ”(” 

# ноль или один раз. 

# Сохранение вложенного совпадения для обратной ссылки 1: 

# Соответствует цифре 

# точно три раза. 

# Конец сохраняющей группы 1. 

# Соответствует литералу 

# ноль или один раз. 

# Соответствует одному символу: дефису, точке или пробелу 

# ноль или один раз. 

# [Соответствует остальным цифрам и разделителю.] 

# Проверка совпадения с концом строки. 


Рассмотрим каждую из этих частей более подробно. 

Символы <~> и <$> в начале и в конце регулярного выражения - это мета¬ 
символы специального назначения, которые называются якорными ме¬ 
тасимволами , или проверками . Этим метасимволам соответствует не 
текст, а определенные позиции в тексте. В частности, метасимволу Г> 
соответствует начало текста, а метасимволу <$> - конец. Они гарантиру¬ 
ют, что регулярное выражение не будет совпадать с более длинным тек¬ 
стом, таким как 123-456-78901. 

Как уже неоднократно говорилось, круглые скобки в регулярных выра¬ 
жениях имеют специальное назначение, но в данном случае необходи¬ 
мо разрешить пользователю вводить круглые скобки, и регулярное вы¬ 
ражение должно распознавать их. Это наглядный пример ситуации, 
когда необходимо использовать символ обратного слэша для экраниро¬ 
вания специальных символов, чтобы механизм регулярных выраже¬ 
ний интерпретировал их как обычные символы. То есть последователь¬ 
ностям <\(> и <\)>, охватывающим первую группу цифр, соответствуют 
символы круглых скобок в тексте. Обе последовательности сопровож¬ 
даются вопросительным знаком, который делает совпадения с ними 
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необязательными. Подробнее о знаке вопроса мы поговорим после того, 
как рассмотрим остальные части этого регулярного выражения. 

Круглые скобки, перед которыми не стоят символы обратного слэша, 
образуют сохраняющие группы и используются для запоминания фраг¬ 
ментов текста, совпавших с подвыражениями, заключенными в скоб¬ 
ки, чтобы позднее можно было извлечь эти фрагменты. В данном случае 
обратные ссылки на сохраненные фрагменты используются в замещаю¬ 
щем тексте, благодаря чему мы легко можем привести телефонный но¬ 
мер к нужному формату. 

В этом регулярном выражении используются еще два типа элементов - 
символьные классы и квантификаторы. Символьные классы позволяют 
описать совпадение с любым символом из определенного набора. Кон¬ 
струкция <[0-9]> - это символьный класс, которому соответствует одна 
цифра. Все диалекты регулярных выражений, описываемые в этой кни¬ 
ге, позволяют использовать сокращенную форму записи символьного 
класса <\сі>, которой также соответствует одна цифра, но в некоторых 
диалектах метасимволу <\с!> соответствует цифра из любого набора сим¬ 
волов или алфавита, а это не совсем то, что нам в данном случае требу¬ 
ется. Подробнее о метасимволе <\сі> рассказывается в рецепте 2.3. 

Конструкция <[-.•]> - это еще один символьный класс, которому соот¬ 
ветствует любой из трех допустимых символов-разделителей. Местопо¬ 
ложение символа дефиса в символьном классе имеет большое значение. 
Когда дефис находится между двумя символами, он образует диапазон 
символов, как в символьном классе <[0-9]>. Другой способ обеспечить 
интерпретацию дефиса в символьном классе как литерала заключается 
в том, чтобы экранировать его символом обратного слэша. Так, сим¬ 
вольный класс <[.\-*]> эквивалентен предыдущему. Здесь символ <♦> 
представляет пробел. 

Наконец, квантификаторы позволяют описать повторяющиеся совпаде¬ 
ния с элементом регулярного выражения или группы. <{3}> - это кванти¬ 
фикатор, который говорит, что предшествующий ему элемент должен 
совпасть точно три раза. То есть регулярное выражение <[0-9]{3}> эквива¬ 
лентно выражению <[0-9][0-9][0-9]>, но оно короче и легче читается. Знак 
вопроса (упоминавшийся выше) - это квантификатор, который обеспе¬ 
чивает совпадение предшествующего ему элемента ноль или один раз. 
Этот квантификатор можно также записать как <{0,1 }>. Любой квантифи¬ 
катор, допускающий нулевое число совпадений предшествующего эле¬ 
мента, фактически делает этот элемент необязательным. Поскольку знак 
вопроса указан после каждого разделителя, допускается, что цифры 
в телефонном номере будут следовать непосредственно друг за другом. 


Следует заметить, что несмотря на то, что в данном рецепте говорит¬ 
ся о форматах представления телефонных номеров, используемых 
в Северной Америке, фактически он предназначен для работы с но¬ 
мерами в системе ЫАЫР ( ЫогіН Атегісап ЫитЪегіп§ Ріап - северо- 
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американская схема присвоения номеров). ЫАЫР - это схема при¬ 
своения номеров для стран, в которых используется код страны «1». 
В их число входят Соединенные Штаты и их территории, Канада, 
Бермудские острова и 17 государств Карибского бассейна. Мексика 
и государства Центральной Америки не входят в эту систему. 


Варианты 

Устранение недопустимых номеров 

Итак, регулярному выражению соответствуют любые 10-значные номе¬ 
ра. Если необходимо ограничиться совпадением только с номерами, со¬ 
ответствующими североамериканской схеме присвоения номеров, необ¬ 
ходимо соблюсти следующие требования: 

• Код зоны должен начинаться с цифры в диапазоне 2-9, за которой 
следует цифра из диапазона 0-8, а третья цифра может быть любой. 

• Вторая группа из трех цифр, известная как центральная станция , 
или коммутатор , должна начинаться с цифры в диапазоне 2-9, за 
которой следуют любые две цифры. 

• Последняя группа из четырех цифр, известная как код станции , не 
имеет ограничений. 

Эти требования можно легко реализовать с помощью нескольких сим¬ 
вольных классов: 

Л(?([2-9][0-8][0-9])\)?[-.*]?([2-9][0-9]{2})[-.*]?([0-9]{4})$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаБсгірІ, РСКЕ, Регі, РуПюп, КиЪу 

Помимо только что перечисленных основных правил существуют пра¬ 
вила для различных зарезервированных, неприсвоенных и ограничен¬ 
ных номеров. Если не стоит задача отфильтровывать максимально воз¬ 
можное число телефонных номеров, то не надо и пытаться отбрасывать 
неиспользуемые номера. Новые коды зон, соответствующие вышепере¬ 
численным правилам, появляются регулярно, при этом, даже если те¬ 
лефонный номер соответствует правилам, это еще не значит, что он дей¬ 
ствительно используется. 

Поиск телефонных номеров в документах 

Два небольших изменения в предыдущих регулярных выражениях по¬ 
зволят использовать его для поиска телефонных номеров внутри текста 
большого объема: 

\(?\Ь([0-9]{3})\)?[-.«]?([0-9]{3})[-.*]?([0-9]{4})\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуПюп, КиЬу 
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Здесь были убраны проверки Г> и <$>, привязывавшие регулярное выра¬ 
жение к началу и концу текста. На их место были вставлены метасим¬ 
волы границы слова (<\Ь>) для гарантии того, что совпавший фрагмент 
текста не является частью более длинного числа или слова. 

Подобно метасимволам Г> и <$>, метасимвол <\Ь> также соответствует 
определенной позиции, а не какому-то фактическому тексту. В частно¬ 
сти, метасимволу <\Ь> соответствует позиция между символом слова 
и либо не символом слова, либо началом и концом текста. Алфавитные, 
цифровые символы и символ подчеркивания - все они считаются сим¬ 
волами слова (рецепт 2.6). 

Обратите внимание, что первый метасимвол границы слова стоит после 
необязательной открывающей скобки. Это важно, так как между дву¬ 
мя не символами слова, например между пробелом и следующей за ним 
открывающей круглой скобкой, не может быть границы слова. Провер¬ 
ка первой границы слова обретает важное значение, только когда сов¬ 
павший номер не окружен круглыми скобками, так как позиция меж¬ 
ду открывающей круглой скобкой и первой цифрой номера всегда будет 
совпадать с метасимволом границы слова. 

Допустимость ведущего символа «1» 

Можно предусмотреть возможность наличия в номере необязательной 
первой цифры «1», обозначающей код страны (который используется 
всеми странами в регионе, охватываемом североамериканской схемой 
присвоения номеров), дополнив регулярное выражение, как показано 
ниже: 

~(? :\+?1[-. *]?)?\(?([0-9]{3})\)?[-.*]?([0-9]{3})[-. *]?([0-9]{4})$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгір!;, РСКЕ, Регі, РуЙюп, КиЬу 

В дополнение к форматам телефонных номеров, показанных выше, это¬ 
му регулярному выражению также соответствуют такие строки, как 
+1 (123) 456-7890 и 1-123-456-7890. Оно использует несохраняющую груп¬ 
пу, которая оформляется как <(?:—)>• Когда вопросительный знак следу¬ 
ет за неэкранированной открывающей круглой скобкой, как в данной 
конструкции, он не является квантификатором; вместо этого он помо¬ 
гает идентифицировать тип группировки. Стандартные сохраняющие 
группы требуют от механизма регулярных выражений следить за об¬ 
ратными ссылками, поэтому несохраняющие группы имеют более вы¬ 
сокую эффективность, так как совпавший с группой текст не требуется 
сохранять для обеспечения возможности сослаться на него позднее. Еще 
одна причина, почему здесь используется несохраняющая группа, со¬ 
стоит в желании сохранить неизменной строку с замещающим текстом. 
Если бы в регулярное выражение была добавлена сохраняющая груп¬ 
па, пришлось бы в замещающем тексте, показанном выше в этом рецеп¬ 
те, заменить обратную ссылку $1 на $2 (и так далее). 
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В эту версию регулярного выражения была добавлена конструкция 
<(?:\+?1 [-.»]?)?>. Символу «1» в этом шаблоне предшествует необязатель¬ 
ный знак плюс, а вслед за символом «1» может следовать один из трех 
символов-разделителей (дефис, точка или пробел). Вся добавленная не¬ 
сохраняющая группа также объявлена необязательной, но, так как 
символ «1» внутри группы является обязательным, предшествующий 
ему символ плюс и следующий за ним символ-разделитель являются 
недопустимыми, если в номере отсутствует ведущий символ «1». 

Допустимость семизначных номеров телефонов 

Чтобы позволить совпадение с номерами телефонов, в которых отсутст¬ 
вует код зоны, необходимо первую группу цифр вместе с окружающи¬ 
ми их круглыми скобками и следующим за ними символом-разделите¬ 
лем заключить в необязательную несохраняющую группу: 

~(?:\(?([0-9]{3})\)?[-.•]?)?([0-9]{3})[-.♦]?([0-9]{4})$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЗаѵаВсгірІ, РСКЕ, Регі, РуПюп, КиЪу 

Поскольку теперь код зоны уже не является обязательной частью сов¬ 
падения, простая замена любого совпадения замещающим текстом 
«($1)*$2-$3» может, например, дать в результате строку с пустыми круг¬ 
лыми скобками: () 123-4567. Чтобы обойти эту проблему, нужно добавить 
программный код, который будет проверять наличие совпадения с пер¬ 
вой группой и соответствующим образом изменять замещающий текст. 

См. также 

Рецепт 4.3, в котором демонстрируется, как выполнять проверку теле¬ 
фонных номеров в международном формате. 

Как уже говорилось выше, североамериканская схема присвоения но¬ 
меров (ЫАЫР) действует на территории США, Канады, Бермудских 
островов и 17 государств Карибского бассейна. Дополнительную инфор¬ 
мацию об этой схеме можно найти на сайте кіір://ипѵіѵ.папра.сот. 

Приемы, использовавшиеся в этом рецепте при создании регулярных 
выражений и текста замены, обсуждаются в главе 2. В рецепте 2.1 опи¬ 
сывается, какие специальные символы следует экранировать. В рецеп¬ 
те 2.3 рассказывается о символьных классах. В рецепте 2.5 обсуждают¬ 
ся якорные метасимволы. В рецепте 2.6 говорится о границах слов. 
В рецепте 2.9 рассказывается о группировке. В рецепте 2.12 объясняет¬ 
ся, как организовать сопоставление с повторяющимися комбинациями 
символов. В рецепте 2.21 демонстрируется, как вставлять текст, сов¬ 
павший с сохраняющей группой, в текст замены. 
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4.3. Проверка международных 
телефонных номеров 

Задача 

Необходимо проверить корректность международного телефонного но¬ 
мера. Эти номера телефонов должны начинаться со знака плюс, за кото¬ 
рым следует код страны, а затем телефонный номер внутри страны. 

Решение 

Регулярное выражение 

~\+(?:[0-9]*?){6,14}[0-9]$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЭсгірѣ, РСКЕ, Регі, РуіЬоп, КиЪу 

Пример для ^ѵаБсгірі 

■Гипсіііоп ѵаіісіаііе ( ріпопе ) { 

ѵаг гедех = /~\+(?:[0-9] ?){6,14}[0-9]$/; 

іТ (гедех.Ііезі:(рОопе)) { 

// Допустимый международный телефонный номер 
} еізе { 

// Недопустимый международный телефонный номер 

} 

} 

Помощь в реализации этого регулярного выражения на других языках 
программирования можно получить в рецепте 3.6. 

Обсуждение 

Правила и соглашения, используемые при выводе международных те¬ 
лефонных номеров, значительно варьируются в зависимости от стра¬ 
ны, поэтому довольно сложно реализовать надежную проверку между¬ 
народных телефонных номеров без принятия строгого формата. К сча¬ 
стью, существует стандартная форма записи, определяемая докумен¬ 
том ІТІІ-Т Е.123. Данная форма записи требует, чтобы международные 
номера телефонов включали начальный знак плюс (известный как сим¬ 
вол , соответствующий международному префиксу ), а для отделения 
групп цифр допускает использовать только пробелы. Несмотря на то 
что внутри телефонного номера может употребляться символ тильды 
(~) для обозначения дополнительного сигнала готовности к набору но¬ 
мера, его следует исключить из регулярного выражения, поскольку это 
всего лишь процедурный элемент (другими словами, он фактически не 
набирается), и используется он достаточно редко. Согласно системе ну¬ 
мерации телефонных номеров (ІТІКГ Е.164) номер не может состоять 
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более чем из 15 цифр. Самые короткие международные телефонные но¬ 
мера содержат семь цифр. 

Учитывая вышесказанное, рассмотрим регулярное выражение, опять 
же разбитое на фрагменты. Так как эта версия записана с использова¬ 
нием режима свободного форматирования, литералы символов пробе¬ 
лов были заменены на последовательность <\х20>: 

# Проверка совпадения с началом строки. 

\+ # Соответствует литералу символа "+". 

(?: # Несохраняющая группа: 

[0-9] # Соответствует цифре. 

\х20 # Соответствует символу пробела 

? # ноль или один раз. 

) # Конец несохраняющей группы. 

{6,14} # Повторить предыдущую группу от 6 до 14 раз. 

[0-9] # Соответствует цифре. 

$ # Проверка совпадения с концом строки. 

Параметры: режим свободного форматирования 

Диалекты: .МЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуІЪоп, КиЬу 

Якорные метасимволы <~> и <$> по границам регулярного выражения га¬ 
рантируют, что регулярное выражение будет совпадать со всем испы¬ 
туемым текстом. Несохраняющей группе, заключенной в конструкцию 
<(?:•■•)>, соответствует одна цифра, за которой следует необязательный 
символ пробела. Повторением этой группы с помощью интервального 
квантификатора <{6,14}> гарантируется соблюдение правила о мини¬ 
мальном и максимальном количестве цифр в номере, при этом допуска¬ 
ется появление пробела-разделителя в любом месте внутри номера. 
Второй символьный класс <[0-9]> завершает реализацию правила о ко¬ 
личестве цифр (увеличивая допустимое число цифр с интервала от 6 до 
14 до интервала от 7 до 15) и гарантирует, что телефонный номер не бу¬ 
дет заканчиваться пробелом. 

Варианты 

Проверка международного телефонного номера 
в формате ЕРР 

~\+[0-9]{1,3}\.[0-9]{4,14}(?:х.+)?$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаВсгірѣ, РСКЕ, Регі, РуІЬоп, КиЪу 

Это регулярное выражение следует формату записи международных 
телефонных номеров, определяемому расширяемым протоколом пред¬ 
ставления информации (ЕхІепзіЫе Ргоѵізіопіп^ Ргоіосоі, ЕРР). Этот 
протокол был разработан относительно недавно (работа над ним была за¬ 
вершена в 2004 году) и предназначен для обмена информацией между ре¬ 
гистратурами и регистраторами доменных имен. Он используется про¬ 
должающими расширяться регистратурами доменных имен, включая 
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.сот, . іпіо , . пеі , .ог^ и .из. Особая его значимость обусловлена тем, что 
формат ЕРР записи международных телефонных номеров приобретает 
все большее распространение и признание, благодаря чему он представ¬ 
ляет собой серьезный альтернативный формат хранения (и проверки) 
международных телефонных номеров. 

Для представления телефонных номеров протоколом ЕРР использует¬ 
ся формат где С - это код страны, состоящий из 

1-3 цифр, фрагмент N может включать до 14 цифр и Е - это необязатель¬ 
ное расширение. Ведущий знак плюс и точка, следующая за кодом стра¬ 
ны, являются обязательными элементами. Символ «х» должен присут¬ 
ствовать только при наличии расширения. 

См. также 

Рецепт 4.2, в котором описываются дополнительные возможности про¬ 
верки номеров в североамериканской схеме нумерации. 

Документ «ІТІКГ гесоттепсІаі;іоп Е.123» («Ыоіаііоп Іог паііопаі апсі іп- 
іегпаііопаі ІеІерЪопе пшпЪегз, е-таіі аскігеззез апсі ДѴеЬ асЫгеззез» - фор¬ 
ма записи национальных и международных телефонных номеров, адре¬ 
сов электронной почты и веб-адресов) можно загрузить по адресу Мір:// 
іиилѵ.ііи.іпі/гес/Т-ВЕС-Е.123. Документ «ІТІІ-Т Кесоттепйаиоп Е.164» 
(«ТЬе іпіегпаііопаі риЫіс Іеіесоттипісаііоп питЪегіп^ ріап» - между¬ 
народная схема нумерации телекоммуникаций) можно загрузить по 
адресу кіір://іоіѵіѵ.ііи.іпі/гес/Т-ВЕС-Е.164. Национальные схемы нуме¬ 
рации можно загрузить по адресу кИр://іѵіѵіи.Ии.іпі/ІТІІ-Т/іпг/ппр. 

Документ КЕС 5733 определяет синтаксис и семантику контактных 
идентификаторов ЕРР, включая международные телефонные номера. 
Загрузить КЕС 5733 можно по адресу кЫр://іооІз.іеі{.ог§/кітІ/г{с5733. 

Приемы, использовавшиеся в этом рецепте при создании регулярных 
выражений и текста замены, обсуждаются в главе 2. В рецепте 2.1 опи¬ 
сывается, какие специальные символы следует экранировать. В рецеп¬ 
те 2.3 рассказывается о символьных классах. В рецепте 2.5 обсуждают¬ 
ся якорные метасимволы. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. 

4.4. Проверка дат в традиционных форматах 

Задача 

Необходимо выполнить проверку дат в традиционных форматах ішп/ 
(Ы/уу, тт/сЫ/уууу, (Ы/тт/уу и сМ/тт/уууу. Необходимо использо¬ 
вать простое регулярное выражение, которое просто проверяет, выгля¬ 
дит ли ввод как дата, не пытаясь проверить корректность таких дат, 
как 31 февраля. 
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Решение 

Решение 1: соответствует любому из указанных форматов представле¬ 
ния дат, допуская отсутствие ведущих нулей: 

Л [0-3]?[0“9]/[0-3]?[0-9]/(?:[0-9]{2})?[0-9]{2}$ 

Параметры: нет 

Диалекты: .ЫЕТ, йаѵа, йаѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЬу 

Решение 2: соответствует любому из указанных форматов представле¬ 
ния дат, требуя наличия ведущих нулей: 

~[0-3][0-9]/[0-3][0-9]/(?:[0-9][0-9])?[0-9][0-9]$ 

Параметры: нет 

Диалекты: .ЫЕТ, йаѵа, йаѵаЗсгірІ;, РСКЕ, Регі, РуІЬоп, КиЬу 

Решение 3: соответствует форматам ш/сі/уу и тт/йй/уууу. Допускает 
любые комбинации из одной или двух цифр в номере дня и месяца и две 
или четыре цифры в номере года: 

"(1[0-2]|0?[1-9])/(3[01]| [12][0-9]|0?[1-9])/(?:[0-9]{2})?[0-9]{2}$ 

Параметры: нет 

Диалекты: .1ЧЕТ, йаѵа, йаѵаЗсгір!;, РСКЕ, Регі, РуІЬоп, КиЬу 

Решение 4: соответствует формату тт/сЫ/уууу, требует наличия веду¬ 
щих нулей: 

Д1[0-2]|0[1-9])/(3[01]|[12][0-9]|0[1-9])/[0-9]{4}$ 

Параметры: нет 

Диалекты: .ЫЕТ, йаѵа, йаѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЬу 

Решение 5: соответствует форматам й/т/уу и йй/тт/уууу. Допускает 
любые комбинации из одной или двух цифр в номере дня и месяца и две 
или четыре цифры в номере года: 

"(3[01]|[12][0-9]| 0?[1-9])/(1[0-2]|0?[1-9])/(?:[0-9]{2})?[0-9]{2}$ 

Параметры: нет 

Диалекты: .ЫЕТ, йаѵа, йаѵаЗсгірі;, РСКЕ, Регі, РуіЬоп, КиЬу 

Решение 6: соответствует формату йй/тт/уууу, требует наличия веду¬ 
щих нулей: 

~(3[01 ]|[12][0-9]|0[1-9])/(1[0-2]|0[1-9])/[0-9]{4}$ 

Параметры: нет 

Диалекты: .ЫЕТ, йаѵа, йаѵаЗсгірі;, РСКЕ, Регі, РуЙюп, КиЬу 

Решение 7: соответствует любому из этих форматов представления дат 
с большей точностью, допускает отсутствие ведущих нулей: 

~(?:(1[0-2]|0?[1-9])/(3[01]|[12][0-9]|0?[1-9])|и 

(3[01]|[12][0-9]|0?[1-9])/(1[0-2]|0?[1-9]))/(?:[0-9]{2})?[0-9]{2}$ 

Параметры: нет 

Диалекты: .ЫЕТ, йаѵа, йаѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЬу 
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Чтобы сделать это регулярное выражение более удобочитаемым, можно 
переписать его в режиме свободного форматирования: 

# т/6 или тт/сісі 

(1[0-2]|0?[1-9])/(3[01]|[12][0-9]|0?[1-9]) 

I 

# 6/т или сісі/тт 

(3[01]|[12][0-9]|0?[1-9])/(1[0-2]|0?[1-9]) 

) 

# /уу или /уууу 

/(?:[0-9]{2})?[0-9]{2}$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙіоп, КиЬу 

Решение 8: соответствует любому из этих форматов представления дат 
с большей точностью, требует наличия ведущих нулей: 

Ч?:(1[0-2]|0[1-9])/(3[01]|[12][0-9]|0[1-9])М 
(3[01]|[12][0-9]|0[1-9])/(1[0-2]|0[1-9]))/[0-9]{4}$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір4, РСКЕ, Регі, РуЙюп, КиЬу 

Режим свободного форматирования немного упрощает чтение этого вы¬ 
ражения: 

"(?: 

# тт/сісі 

(1[0-2]|0[1-9])/(3[01]|[12][0-9]|0[1-9]) 

# 66/тт 

(3[01]|[12][0-9]|0[1-9])/(1[0-2]|0[1-9]) 

) 

# /уууу 
/[0-9]{4}$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

На первый взгляд, проверку чего-то концептуально простого, такого 
как даты, легко реализовать с помощью регулярного выражения. Но 
это далеко не так по следующим двум причинам. Во-первых, даты - 
вещь настолько обыденная, что люди очень небрежно обращаются с их 
записью. Так, для кого-то запись 4/1 может обозначать первоапрель¬ 
ский «День смеха». Для кого-то другого это может быть первый рабо¬ 
чий день в году 1 , если Новый год приходится на пятницу. 


1 4 января. - Прим . перев . 
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Другая проблема заключается в том, что регулярные выражения не ра¬ 
ботают с числами напрямую. Невозможно определить в регулярном вы¬ 
ражении правило, которое, к примеру, гласило бы: «соответствовать 
числу в диапазоне от 1 до 31». Регулярные выражения работают с сим¬ 
волами. Приходится использовать выражение <3[01]|[12][0-9]|0?[1 -9]>, 
чтобы описать совпадение с цифрой 3, за которой следует цифра 0 или 1, 
или совпадение с 1 или 2, за которой следует любая цифра, или совпаде¬ 
ние с необязательной цифрой 0, за которой следует цифра в диапазоне 
от 1 до 9. С помощью символьных классов, таких как <[1-9]>, можно опре¬ 
делять диапазоны для одной цифры. Это возможно благодаря тому, что 
символы, обозначающие цифры от 0 до 9, следуют непосредственно 
друг за другом в таблицах символов А8СІІ и Юникод. Подробнее о сопо¬ 
ставлении регулярных выражений со всеми типами чисел рассказыва¬ 
ется в главе 6. 

Вследствие всего вышеизложенного необходимо выбирать между про¬ 
стотой и точностью регулярного выражения. Если заранее известно, 
что испытуемый текст не содержит ошибочных дат, можно использо¬ 
вать тривиальное регулярное выражение, такое как <\сі{2}/\сі{2}/\сі{4}>. 
Тот факт, что это выражение совпадает с датами вида 99/99/9999 , не име¬ 
ет большого значения, если такие даты не могут появиться в испытуе¬ 
мом тексте. Такое выражение можно быстро ввести с клавиатуры, и оно 
отработает очень быстро. 

Первые два решения в этом рецепте тоже относятся к простым и быст¬ 
рым, и они также совпадают с некорректными датами, такими как 
0/0/00 и 31/31/2008 . В них используются только литералы символов, соот¬ 
ветствующие символам-разделителям в датах, и символьные классы (ре¬ 
цепт 2.3), соответствующие цифрам, а также знак вопроса (рецепт 2.12), 
чтобы обеспечить необязательность некоторых цифр. Регулярное выра¬ 
жение <(?:[0-9]{2})?[0-9]{2}> допускает, что номер года может состоять из 
двух или четырех цифр. Выражению <[0-9]{2}> соответствуют точно две 
цифры. Выражению <(?:[0-9]{2})?> соответствуют ноль или две цифры. 
Несохраняющая группировка (рецепт 2.9) является обязательной, по¬ 
тому что вопросительный знак должен применяться к символьному 
классу и квантификатору <{2}> одновременно. Выражению <[0-9]{2}?> со¬ 
ответствуют точно две цифры, как и выражению <[0-9]{2}>. Без группи¬ 
ровки вопросительный знак делает предшествующий ему квантифика¬ 
тор минимальным, что не оказывает никакого эффекта, потому что 
квантификатор <{2}> не позволяет повторять предшествующий ему эле¬ 
мент более двух раз или менее двух раз. 

В решениях с 3 по 6 номер месяца ограничивается диапазоном от 1 до 
12, а число - диапазоном от 1 до 31. Для описания совпадения с разны¬ 
ми парами цифр при оформлении диапазонов двузначных чисел приме¬ 
нялась конструкция выбора (рецепт 2.8), заключенная в группу. Здесь 
использовалась сохраняющая группировка, потому что число, месяц 
и год могут потребоваться позднее. 
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Последние два решения имеют немного большую сложность, поэтому 
они представлены в режиме свободного форматирования. Единственное 
отличие этого режима заключается в большей удобочитаемости. Диа¬ 
лект Заѵа8сгірѣ не поддерживает режим свободного форматирования. 
Заключительные решения поддерживают все форматы представления 
дат, как и первые два примера. Различие между ними состоит в том, что 
в последних двух выражениях используется дополнительный уровень 
конструкции выбора, позволяющий пропускать даты 12/31 и 31/12 и за¬ 
прещающий недопустимые номера месяцев, такие как 31/31. 

Варианты 

Если вместо того чтобы определять, является ли введенная строка да¬ 
той, необходимо отыскать даты в тексте документа, в регулярном выра¬ 
жении нельзя использовать метасимволы Г> и <$>. Однако простое уда¬ 
ление их из регулярного выражения не является правильным решени¬ 
ем. В этом случае получившееся регулярное выражение будет совпа¬ 
дать, например, с фрагментом 12/12/2001 в строке 9912/12/200199. Вместо 
того чтобы привязывать совпадение с регулярным выражением к нача¬ 
лу и к концу испытуемого текста, необходимо указать, что даты не мо¬ 
гут быть частью более длинных последовательностей цифр. 

Это легко реализуется с помощью пары метасимволов границ слов. 
В регулярном выражении цифры интерпретируются как символы слов. 
То есть метасимволы <"> и <$> нужно заменить метасимволом <\Ь>. На¬ 
пример: 

\Ь(1[0-2]|0[1-9])/(3[01]|[12][0-9]|0[1-9])/[0-9]{4}\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

См. также 

В этой главе приводится еще несколько рецептов поиска совпадений 
с датами и временем. В рецепте 4.5 демонстрируется, как более точно 
проверять даты в традиционных форматах. В рецепте 4.6 рассказывает¬ 
ся, как проверять значения времени в традиционных форматах. В ре¬ 
цепте 4.7 показано, как проверять дату и время в формате 180 8601. 

Рецепт 6.7 разъясняет, как создавать регулярные выражения, соответ¬ 
ствующие числам в заданном диапазоне. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 
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4.5. Точная проверка дат 
в традиционных форматах 

Задача 

Необходимо проверить даты в традиционных форматах тт/сЫ/уу, тт/ 
сИ/уууу, <іс1/тт/уу и (М/тт/уууу, как демонстрировалось в рецеп¬ 
те 4.4. Но на этот раз требуется, чтобы регулярное выражение не про¬ 
пускало недопустимые даты, такие как 31 февраля. 

Решение 

с# 

В первом решении требуется, чтобы сначала шел месяц, потом день. 
Представленное регулярное выражение совместимо с различными диа¬ 
лектами: 

Л ( ?<топ1:Іі> [ 0-3 ]?[ 0-9 ])/(?<с!ау>[ 0-3 ]? [0-9 ] )/( ?<уеаг>( ? : [0-9] {2} )?[ 0-9 ] { 2 }) $ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10 

Далее приводится законченное решение на языке С#: 

ОаІіеТіте І'оипсШаІе; 

МаІісМ таІісМРезиІІ: = Редех. МаІісП(ЗиЬзесІіЗі:гіпд, 

"~(?<топТІі>[0-3]?[0-9] )/(?<с!ау>[0-3]?[0-9])/" + 

"(?<уеаг>(?:[0-9]{2})?[0-9]{2})$"); 
іі 1 (таІісИРезиІІ:. Зиссезз) { 

іпі: уеаг = іпі:. Рагзе(та1:сІіРези11:.6гоирз["уеаг"]. Ѵаіие); 

іГ (уеаг < 50) уеаг += 2000; 

еізе іі (уеаг < 100) уеаг += 1900; 

ігу { 

іоипсЮаіе = пем 0аіеТіте(уеаг, 

іпі. Рагзе(та1:сМРези11:. 0гоирз[ "топіііп"]. Ѵаіие), 
іпі:. Рагзе(таісОНези11:. Сгоирз[ "сіау" ]. Ѵаіие)); 

} саісіп { 

// Недопустимая дата 

} 

} 

Во втором решении требуется, чтобы день указывался перед месяцем. 
Единственное отличие - в этом регулярном выражении переставлены 
имена сохраняющих групп: 

Л (?<с!ау>[0-3]?[0-9])/( ?<топ1:1п>[ 0-3]?[0-9])/(?<уеаг>(?: [0-9]{2} )?[0-9]{2})$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10 

Программный код на С# не изменился, кроме самого регулярного вы¬ 
ражения: 
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ОаГеТіте ГоипсШаіе; 

МаісН таГсНВезиИ = Педех . МаІісГі(5иЬ^ес1:51:гіпд, 

(?<с!ау>[ 0-3 ]?[0-9])/(?<топ1:Г)>[ 0-3]?[0-9])/” + 

'■(?<уеаг>(? : [0-9] {2})?[0-9] {2})$”); 
іГ (таГсНВезиІІ:. Зиссезз) { 

іпГ уеаг = іпГ. Рагзе(та1:сГіРези11:. 6гоирз["уеаг"]. Ѵаіие); 

іГ (уеаг < 50) уеаг += 2000; 

еізе іГ (уеаг < 100) уеаг += 1900; 

ігу { 

ГоипсЮаГе = пем 0аГеТіте(уеаг, 

іпГ. Рагзе(таІісІтРезиІІ:. 6гоирз[ "топГІѴ’]. Ѵаіие), 
іпі. Рагзе(таісНВези11:. 0гоирз["с1ау"]- Ѵаіие)); 

} саісН { 

// Недопустимая дата 

} 

} 

РегІ 

Первое решение требует, чтобы сначала шел месяц, потом день. Пред¬ 
ставленное регулярное выражение совместимо со всеми диалектами, 
рассматриваемыми в этой книге: 

~([0-3]?[0-9])/([0-3]?[0-9])/((?:[0-9]{2})?[0-9]{2})$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ;, РСКЕ, РегІ, РуМюп, КиЬу 

Далее приводится законченное решение на языке РегІ: 

©сІаузіптопТІі = (31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31); 

$ѵа1ісІсІаТе = 0; 

ІГ ($зиЬ]есГ =" т! Л ([0-3]?[0-9])/([0-3]?[0-9])/((?:[0-9]{2})?[0-9]{2})$!) 

{ 

$топГН = $1; 

$с!ау = $2; 

$уеаг = $3; 

$уеаг += 2000 ІГ $уеаг < 50; 

$уеаг += 1900 іГ $уеаг < 100; 

іГ ($топГН == 2 && $уеаг % 4 == 0 && ($уеаг % 100 != 0 || 

$уеаг % 400 == 0)) { 

$ѵа1ісІсІаГе = 1 іГ $с!ау >= 1 && $с!ау <= 29; 

} еІзіГ ($топГН >= 1 && $топТІп <= 12) { 

$ѵа1іс!сІаГе = 1 іГ $с!ау >= 1 && $с!ау <= $сІаузіптоп1:Гі[ $топ1:1т-1 ]; 

} 

} 

Второе решение требует, чтобы день указывался перед месяцем. Регу¬ 
лярное выражение не изменилось. В программном коде на РегІ поменя¬ 
лась интерпретация первых двух сохраняющих групп: 


@сіаузіптопГН = (31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31); 
$ѵа1іс!сіаГе = 0; 
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ІТ ($5иЬ]есІ =~ т!^([0-3]?[0-9])/([0-3]?[0-9])/((?:[0-9]{2})?[0-9]{2})$!) 

{ 

$с!ау = $1; 

$топТІп = $2; 

$уеаг = $3; 

$уеаг += 2000 ІТ $уеаг < 50; 

$уеаг += 1900 ІТ $уеаг < 100; 

ІТ ($тогѵЫі == 2 && $уеаг % 4 == 0 && ($уеаг % 100 ! = 0 | | 

$уеаг % 400 == 0)) { 

$ѵа1ісІсІа1:е = 1 ІТ $0ау >= 1 && $сіау <= 29; 

} еІзіТ ($топ1:Іі >= 1 && $топ1:0 <= 12) { 

$ѵа1ісШа1:е = 1 ІТ $с!ау >= 1 && $0ау <= $с!аузіптопі:Іп[$топ1:М-1 ]; 

} 

} 

Проверка исключительно средствами 
регулярного выражения 

Поставленную задачу можно решить исключительно средствами регу¬ 
лярного выражения без дополнительной обработки результатов в про¬ 
граммном коде. Данное решение приводится для тех, кто в приложе¬ 
нии может изменить только регулярное выражение. 

Сначала месяц, потом день: 

# Февраль (29 дней в любом году) 

(?<топ1:И>0?2)/ (?<0ау>[ 12][0-9] 10?[ 1 -9]) 

I 

# месяцы продолжительностью 30 дней 

(?<топ1:1т>0?[469] 111 )/(?<0ау>301 [12][0-9] |0?[1-9]) 

I 

# месяцы продолжительностью 31 день 

(?<топ1:Р>0?[ 13578] 11 [02]) /(?<сІау>3[01 ] | [12][0-9] |0?[1-9]) 

) 

# Год 

/(?<уеаг>(?:[0-9]{2>)?[0-9]{2>)$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, Регі 5.10, КиЬу 1.9 

-(?: 

# Февраль (29 дней в любом году) 

(0?2)/([12][0-9]|0?[1-9]) 

I 

# месяцы продолжительностью 30 дней 
(0? [ 469]111)/(301[12][0-9]10?[1-9]) 

I 

# месяцы продолжительностью 31 день 

(0?[13578]|1[02])/(3[01]|[12][0-9]|0?[1-9]) 

) 

# Год 

/((? : [0-9]{2])?[0-9]{2})$ 
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Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, Лѵа, ХКе&Ехр, РСКЕ, Регі, РуНюп, КиЬу 

~(?:(0?2)/([12][0-9]|0?[1-9])| (0? [469] 111 )/(30| [12][0-9] 10? [ 1 -9 ]) | —I 
(0?[13578]|1[02])/(3[01]|[12][0-9]|0?[1-9]))/((?:[0-9]{2})?[0-9]{2})$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаВсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Сначала день, потом месяц: 

~(? : 

# Февраль (29 дней в любом году) 

(?<бау>[12][0-9] 10?[ 1 -9])/(?<топ1:1а>0?2) 

I 

# месяцы продолжительностью 30 дней 

(?<с!ау>30| [12][0-9] 10?[ 1-9])/(?<топ1:П>0?[469] 111) 

# месяцы продолжительностью 31 день 

(?<бау>3[01 ] | [12][0-9] 10?[1-9])/(?<топ1:б>0?[ 13578] |1 [02]) 

) 

# Год 

/(?<уеаг>(?:[0-9]{2>)?[0-9]{2>)$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, Регі 5.10, КиЬу 1.9 

"(?: 

# Февраль (29 дней в любом году) 

([12][0-9]|0?[1-9])/(0?2) 

I 

# месяцы продолжительностью 30 дней 
(30|[12][0-9]|0?[1-9])/([469]|11) 

# месяцы продолжительностью 31 день 

(3[01]|[12][0-9]|0?[1-9])/(0?[13578]|1[02]) 

) 

# Год 

/((?:[0-9]{2})?[0-9]{2})$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

”(?: ([12][0-9]|0?[1-9])/(0?2) |(30|[12][0-9]10?[1-9])/([469]111)М 
(3[01]|[12][0-9]|0?[1-9])/(0?[13578]|1[02]))/((?:[0-9]{2})?[0-9]{2})$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуіЬоп, КиЬу 

Обсуждение 

Регулярное выражение с программным кодом 

По сути, имеется два способа точной проверки дат с помощью регуляр¬ 
ных выражений. Первый метод заключается в использовании простого 
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регулярного выражения, которое лишь сохраняет группы чисел, вы¬ 
глядящие как комбинация месяц/день/год, с последующей проверкой 
этих чисел на корректность в программном коде. 

Главное преимущество этого метода заключается в простоте наложе¬ 
ния дополнительных ограничений, таких как ограничение дат опреде¬ 
ленным периодом. Во многих языках программирования имеются сред¬ 
ства для работы с датами. В решении для языка С# для проверки до¬ 
пустимости даты и преобразования ее в удобный формат за одно дейст¬ 
вие применяется структура ОаІіеТіте, используемая в платформе .ЫЕТ. 

Мы использовали первое регулярное выражение из рецепта 4.4, которое 
считает допустимыми любые числа в диапазоне от 0 до 39 для обозначе¬ 
ния дня и месяца. Это упрощает переход от формата тт/сШ/уууу к фор¬ 
мату (Ій/тт/уууу простой заменой сохраняющей группы, которая ин¬ 
терпретируется как номер месяца. При использовании именованных 
сохранений это означает замену имен сохраняющих групп в регуляр¬ 
ном выражении. При использовании нумерованных сохранений произ¬ 
водится замена ссылок на нумерованные группы в программном коде. 

Проверка исключительно средствами 
регулярного выражения 

Другой метод целиком опирается на использование регулярного выра¬ 
жения. Здесь можно применить тот же прием, основанный на выборе 
альтернатив, который использовался в заключительных решениях, 
представленных в рецепте 4.4. Решение становится более или менее про¬ 
стым, если считать каждый год високосным, а дату 29 февраля - допу¬ 
стимой независимо от года. Для ограничения допустимости даты 29 фев¬ 
раля потребовалось бы описать в регулярном выражении, какие годы 
считаются високосными, а какие нет. 

Проблема решения, опирающегося исключительно на использование 
регулярного выражения, в том, что для большей точности определения 
оно больше не сохраняет день и месяц в единственной сохраняющей 
группе. Теперь имеются три сохраняющих группы для месяца и три со¬ 
храняющих группы для дня. Когда регулярное выражение обнаружи¬ 
вает совпадение с датой, только три группы из семи будут хранить не¬ 
которые данные. Для февраля месяц и день будут сохраняться в груп¬ 
пах 1 и 2. Для месяца продолжительностью 30 дней месяц и день будут 
сохраняться в группах 3 и 4. Для месяца продолжительностью 31 день 
месяц и день будут сохраняться в группах 5 и 6. Группа 7 всегда будет 
хранить год. 

Только диалекты Регі 5.10, КиЬу 1.9 и .ЫЕТ способны помочь в этой си¬ 
туации. В этих диалектах допускается иметь несколько именованных 
групп с одним и тем же именем. Подробнее об этом рассказывается в ре¬ 
цепте 2.11 в разделе «Группы с одинаковыми именами». Это преимуще¬ 
ство дает возможность использовать группы с именами «топНі» и «сіау» 
в каждой из альтернатив. Когда регулярное выражение находит совпа- 
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дение, остается просто извлечь совпавший текст, используя имена 
групп «топіЬ» и «сіау», не беспокоясь о том, сколько дней в месяце. 

Для всех остальных диалектов используется решение на основе нумеро¬ 
ванных сохраняющих групп. Когда обнаруживается совпадение, при¬ 
ходится проверять, в какой из трех групп хранится день, а в какой из 
трех других групп — месяц. 

Решение, опирающееся исключительно на использование регулярного 
выражения, представляет интерес только в ситуациях, когда регуляр¬ 
ное выражение - это единственное, что можно использовать. Например, 
в приложении, предлагающем только поле для ввода регулярного вы¬ 
ражения. При программировании многие вещи гораздо проще решить 
с помощью дополнительного программного кода. Это особенно удобно, 
если позднее может потребоваться добавить дополнительные проверки 
дат. 

Варианты 

Чтобы показать, насколько сложным может стать регулярное выраже¬ 
ние при добавлении дополнительных требований, ниже приводится ре¬ 
шение, основанное исключительно на применении регулярного выра¬ 
жения, которому соответствуют даты в диапазоне от 2 мая 2007 года до 
29 августа 2008 года в формате (1/т/уу или сій/тт/уууу: 

# от 2 мая 2007 до 29 августа 2008 
"(?: 

# от 2 мая 2007 до 31 декабря 2007 
(?: 

# от 2 мая до 31 мая 

(?<сіау>3[01 ] | [12][0-9] 10?[2-9] )/(?<топ1Р>0?5)/(?<уеаг>2007) 

I 

# от 1 июня до 31 декабря 

(?: 

# месяцы продолжительностью 30 дней 

(?<сІау>30| [12][0-9] 10?[ 1 -9])/(?<топ1:Р>0?[69] 111) 

I 

# месяцы продолжительностью 31 день 

(?<с!ау>3[01 ] | [12][0-9] 10?[ 1-9])/(?<шоп1:1т>0?[78] 11 [02]) 

) 

/(?<уеаг>2007) 

) 

# от 1 января 2008 до 29 августа 2008 
(?: 

# от 1 августа до 29 августа 

(?<с!ау>[12][0-9] 10?[1 -9] )/(?<топИ1т>0?8)/(?<уеаг>2008) 

# от 1 января до 30 июня 

(?: 
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# Февраль 

(?<сІау>[ 12][0-9] 10?[1-9] )/(?<топТР>0?2) 

I 

# месяцы продолжительностью 30 дней 
(?<с!ау>301[12][0-9]|0?[1 -9 ])/( ?<топИМ>0? [ 46 ]) 

I 

# месяцы продолжительностью 31 день 
(?<сіау>3[01 ] | [12][0-9] 10?[1-9])/(?<топ1;1л>0?[1357]) 

) 

/(?<уеаг>2008) 

) 

)$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, Регі 5.10, КиЬу 1.9 

См. также 

В этой главе приводится еще несколько рецептов поиска совпадений 
с датами и временем. В рецепте 4.4 демонстрируется, как упростить 
проверку дат в традиционных форматах за счет некоторой потери точ¬ 
ности. В рецепте 4.6 рассказывается, как проверять значения времени 
в традиционных форматах. В рецепте 4.7 показано, как проверять дату 
и время в формате 180 8601. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. 

4.6. Проверка времени 
в традиционных форматах 

Задача 

Необходимо проверить ввод времени в различных традиционных фор¬ 
матах записи времени, таких как Мі:тш и Ыі:тт:зз в 12-часовом 
и 24-часовом форматах. 

Решение 

Часы и минуты в 12-часовом формате: 


'*(1[0-2]|0?[1-9]):([0-5]?[0-9])(«?[АР]М)?$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЬу 
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Часы и минуты в 24-часовом формате: 

~(2[0-3]|[01]?[0-9]):([0-5]?[0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, Заѵа8сгірі, РСКЕ, Регі, РуІИоп, КиЬу 

Часы, минуты и секунды в 12-часовом формате: 

~(1[0-2]|0?[1-9]):([0-5]?[0-9]):([0-5]?[0-9])(*?[АР]М)?$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, Руіііоп, КиЪу 

Часы, минуты и секунды в 24-часовом формате: 

"(2[0-3]|[01]?[0-9]):([0-5]?[0-9]):([0-5]?[0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, Руіііоп, КиЪу 

Знаки вопроса во всех предыдущих регулярных выражениях делают 
ведущие нули необязательными. Чтобы сделать их обязательными, 
достаточно удалить знаки вопроса. 

Обсуждение 

Реализовать проверку времени определенно проще, чем проверку дат. 
Продолжительность каждого часа составляет 60 минут, а продолжи¬ 
тельность каждой минуты - 60 секунд. Это означает, что нет необходи¬ 
мости строить сложные конструкции выбора в регулярном выражении. 
Для минут и секунд конструкция выбора вообще не требуется. Выра¬ 
жению <[0-5]?[0-9]> соответствует цифра в диапазоне от 0 до 5, за кото¬ 
рой следует цифра в диапазоне от 0 до 9, то есть этому выражению соот¬ 
ветствуют числа в диапазоне от 0 до 59. Знак вопроса после первого сим¬ 
вольного класса делает его необязательным. Тем самым единственная 
цифра также рассматривается как допустимое обозначение числа ми¬ 
нут или секунд между 0 и 9. Если первые 10 минут или секунд долж¬ 
ны записываться как значения от 00 до 09, следует удалить знак вопро¬ 
са. В рецептах 2.3 и 2.12 подробно описываются символьные классы 
и квантификаторы, такие как знак вопроса. 

Для поиска совпадений со значением часов нам потребуется использо¬ 
вать конструкцию выбора (рецепт 2.8). Вторая цифра считается допусти¬ 
мой в разных диапазонах в зависимости от первой цифры. В 12-часовом 
формате, если первая цифра 0, вторая цифра может быть любой из 
10 цифр, но если первая цифра 1, вторая цифра может быть только 0, 1 
или 2. В регулярном выражении соответствующая конструкция записа¬ 
на как <1 [0-2] 10?[1 -9]>. В 24-часовом формате, если первая цифра 0 или 1, 
вторая цифра может быть любой из 10 цифр, но если первая цифра 2, вто¬ 
рая цифра может быть только цифрой в диапазоне от 0 до 3. В регуляр¬ 
ном выражении эта проверка выглядит как <2[0-3]|[01]?[0-9]>. Здесь так¬ 
же знак вопроса позволяет записывать первые 10 часов одной цифрой. 
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Если требуется, чтобы час всегда записывался двумя цифрами, знак во¬ 
проса следует удалить. 

Мы заключили в круглые скобки части регулярного выражения, соот¬ 
ветствующие часам, минутам и секундам, тем самым обеспечив про¬ 
стой способ извлечения цифр, обозначающих часы, минуты и секунды 
без символов двоеточия. В рецепте 2.9 описывается, как с помощью 
круглых скобок оформляются сохраняющие группы. В рецепте 3.9 опи¬ 
сывается, как извлекать фрагменты текста, совпавшие с сохраняющи¬ 
ми группами в программном коде. 

Круглые скобки, заключающие подвыражение, которому соответству¬ 
ет час, объединяют две альтернативные формы записи. Если удалить 
эти скобки, регулярное выражение будет работать некорректно. Удале¬ 
ние скобок, окружающих минуты и секунды, не окажет никакого эф¬ 
фекта, кроме того, что сделает невозможным извлекать их значения по 
отдельности. 

В регулярном выражении, осуществляющем поиск значений времени 
в 12-часовом формате, предусматривается возможность появления ин¬ 
дикатора АМ или РМ. Кроме того, допускается присутствие пробела 
между значением времени и индикатором АМ/РМ. Конструкция <[АР]М> 
совпадает с последовательностями символов АМ и РМ. Подвыражению 
<*?> соответствует необязательный пробел. Группа <(*?[АР]М)?> объединя¬ 
ет пробел и индикатор в одно целое и делает их необязательными. Здесь 
нельзя использовать конструкцию <*?([АР]М)?>, потому что она допуска¬ 
ет наличие пробела, даже когда индикатор отсутствует. 

Варианты 

Если вместо того чтобы определять, является ли введенная строка зна¬ 
чением времени, необходимо отыскать значения времени в объемном 
тексте, в регулярном выражении нельзя использовать метасимволы <~> 
и <$>. Однако простое удаление их из регулярного выражения не явля¬ 
ется правильным решением. В этом случае получившееся регулярное 
выражение будет совпадать, например, с фрагментом 12:12 в строке 
9912:1299. Вместо того чтобы привязывать совпадение с регулярным вы¬ 
ражением к началу и к концу испытуемого текста, необходимо указать, 
что значения времени не могут быть частью более длинных последова¬ 
тельностей цифр. 

Это легко реализуется с помощью пары метасимволов границ слов. 
В регулярном выражении цифры интерпретируются как символы слов. 
То есть метасимволы Г> и <$> нужно заменить метасимволом <\Ь>. На¬ 
пример: 

\Ь(2[0-3]|[01]?[0-9]): ([0-5]?[0-9])\Ь 

Параметры: нет 

Диалекты: ^ЕТ, Лѵа, Лѵа8сгір1, РОКЕ, Регі, РуЬЬоп, КиЪу 
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Границы слов не отклоняют все подряд - они отклоняют только симво¬ 
лы, цифры и символы подчеркивания. Только что продемонстрирован¬ 
ное регулярное выражение, совпадающее с часами и минутами в 24-ча¬ 
совом формате, обнаружит соответствие 16:08 в испытуемом тексте ТГіе 
ііте із 16:08:42 зОагр. Пробел не является символом слова, тогда как 1 
является им, поэтому граница слова обнаружит совпадение между ни¬ 
ми. Цифра 8 является символом слова, а двоеточие - нет, поэтому мета¬ 
символ <\Ь> также совпадет с позицией между ними. 

Если наряду с символами слова необходимо отклонить и двоеточия, 
следует использовать проверку соседних символов (рецепт 2.16). Приве¬ 
денное далее регулярное выражение не совпадет ни с одной частью стро¬ 
ки ТПе ііте із 16:08:42 зОагр. Оно будет работать только в диалектах, под¬ 
держивающих ретроспективную проверку: 

(?<![: \\л/])(2[0-3]|[01]?[0 -9 ]):([0-5]?[0-9 ])(?![: \\л/]) 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, РуНюп, КиЬу 1.9 

См. также 

В этой главе приводится еще несколько рецептов поиска совпадений 
с датами и временем. В рецептах 4.4 и 4.5 демонстрируется, как прове¬ 
рять даты в традиционных форматах. В рецепте 4.7 показано, как про¬ 
верять дату и время в формате 180 8601. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. В рецепте 2.16 рассказывается 
об опережающих и ретроспективных проверках. 

4.7. Проверка даты и времени в формате 150 8601 

Задача 

Необходимо обеспечить совпадение с датой и/или временем в офици¬ 
альном формате 180 8601, который является основой для многих стан¬ 
дартизованных форматов представления даты и времени. Например, 
в языке ХМЬ 8сЬета встроенные типы сіаіе, ііте и сІаіеТіте основаны на 
стандарте 180 8601. 

Решение 

Стандарт 180 8601 определяет широкий диапазон форматов представ¬ 
ления дат и времени. В большинстве приложений, использующих стан- 
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дарт 180 8601, поддерживается только некоторая часть из них. Реше¬ 
ния, представленные ниже, реализуют поиск наиболее употребимых 
форматов, определяемых стандартом 180 8601. В этот рецепт также бы¬ 
ли добавлены решения на языке ХМЬ 8сЬета, который является част¬ 
ной реализацией стандарта 180 8601. 

Даты 

Следующим выражениям соответствует календарный месяц (напри¬ 
мер, 2008-08). Дефис обязателен: 

Х[0-9]{4})-(1[0-2]|0[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуПюп, КиЪу 

Применение именованных сохранений делает регулярное выражение 
и программный код, ссылающийся на сохраняющие группы, более удо¬ 
бочитаемыми: 

"(?<уеаг>[0-9]{4})- (?<топі:Іп>1 [0-2] 10[ 1 -9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа 7, Хге^Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

В диалекте РуІЬоп используется иной синтаксис определения имено¬ 
ванных сохранений - с добавлением символа Р. Для краткости мы пока¬ 
жем только одно решение для диалекта РуІЬоп. Во всех остальных ре¬ 
шениях будут использоваться именованные сохранения в стиле .ЫЕТ, 
которые легко можно перевести в стиль диалекта РуІЬоп. 

^(?Р<уеаг>[0-9]{4})-(?Р<топИ0>1[0-2]|0[1-9])$ 

Параметры: нет 
Диалекты: РСКЕ, РуІЬоп 

Стандарт 180 8601 разрешает опускать дефисы в календарных датах, 
благодаря чему обе строки, 2008-08-20 и 20080820, представляют одну 
и ту же дату. Следующее регулярное выражение учитывает это, а так¬ 
же считает допустимыми формы записи УУУУ-ММБВ и УУУУММ-ББ, 
которые не соответствуют стандарту 180 8601: 

~([0-9]{4})-?(1[0-2]|0[1-9])-?(3[01]|0[1-9]|[12][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, Лѵа8сгір1, РСКЕ, Регі, Руііюп, КиЬу 

~(?<уеаг>[0-9]{4} )-?(?<гтюп1:И>1[0-2] 10[ 1 -9]) -?^-і 
(?<сІау>3[01 ] 10[ 1 -9] | [12][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

Календарная дата, например 2008-08-30 или 20080830. Дефис необязате¬ 
лен. Это регулярное выражение использует сохраняющую группу и об- 
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ратную ссылку для поиска форм записи УУУУ-ММ-ББ и УУУУММББ, 
но исключая формы записи УУУУ-ММББ и УУУУММ-ББ. 

~([0-9]{4})(-?)(1[0-2]|0[1-9])\2(3[01]|0[1-9]|[12][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

~(?<уеаг>[0-9]{4} )(?<ГіурОеп>-?) (?<топ1:Гі>1 [0-2] 10[ 1 -9] )*-! 

\к<ГіурОеп>(?<сІау>3[01 ] |0[1-9] | [12][0-9])$ 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

Синтаксис именованных обратных ссылок в диалекте РуІЪоп также от¬ 
личается: 

^(?Р<уеаг>[0-9]{4}) (? Р<0урІтеп>-? )(? Р<топ1:Гі>1 [0-2] 10[ 1 -9])—I 
(?Р=ГіурГіеп ) (?<сіау>3[01 ] 10[ 1 -9] | [12][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

Дата с номером дня в году (например, 2008-243). Дефис необязателен: 

~([0-9]{4})-?(36[0-6]|3[0-5][0-9]|[12][0-9]{2}|0[1-9][0-9]|00[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

Л (?<уеаг>[0-9]{4})-?и 

(?<с1ау>36[0-6]|3[0-5][0-9]|[12][0-9]{2}|0[1-9][0-9]|00[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, РСКЕ 7, Регі 5.10, КиЪу 1.9 

Недели 

Неделя года (например, 2008-Ы35). Дефис необязателен: 

~([0-9]{4})-?М(5[0-3]|[1-4][0-9]|0[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 

'*(?<уеаг>[0-9]{4})-?ѴіІ(?<ѵ/еек>5[0-3]|[1-4][0-9]|0[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

Неделя и день в неделе (например, 2008-М35-6). Дефис необязателен: 

~([0-9]{4})-?М(5[0-3]|[1-4][0-9]|0[1-9])-?([1-7])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵавсгірі, РСКЕ, Регі, РуІЬоп, КиЬу 

~(?<уеаг>[0-9]{4} )-?\лІ(?<\л/еек>5[0-3] | [1-4][0-9] 10[ 1 -9] )-? (?<сІау>[ 1 -7])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 
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Время 

Часы и минуты (например, 17:21). Двоеточие необязательно: 

~(2[0-3]|[01][0-9]):?([0-5][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵа8сгір1, РСКЕ, Регі, Руііюп, КиЪу 

“(?<Ііоиг>2[0-3]|[01][0-9]):?(?<тіпи1:е>[0-5][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

Часы, минуты и секунды (например, 17:21:59). Двоеточие необязательно: 

~(2[0-3]|[01][0-9]):?([0-5][0-9]):?([0-5][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЪоп, КиЪу 

''(?<Гюиг>2[0-3]|[01][0-9]):?(?<тіпи1:е>[0-5][0-9]):?и 

(?<зесопсІ>[0-5][0-9])$ 

Параметры: нет 

Диалекты: .ІЧЕТ, Лѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

Указатель часового пояса (например, 7, +07 или +07:00). Двоеточие и ми¬ 
нуты необязательны: 

~(2|[+-](?:2[ 0-3] |[01][0-9])(?::?(?:[0-5][0-9]))?)$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуіЪоп, КиЪу 

Часы, минуты и секунды с указателем часового пояса (например, 
17:21:59+07:00). Все двоеточия являются необязательными. Минуты 
в указателе часового пояса также являются необязательными: 

~(2[0-3]|[01][0-9]):?([0-5][0-9]):?([0-5][0-9])и 
(2|[+-](?:2[0-3]|[01][0-9])(?::?(?:[0-5][0-9]))?)$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуіЪоп, КиЪу 

''(?<Иоиг>2[0-3] | [01 ][0-9]): ? (?<гпіпи^е>[0-5] [0-9]): ?(?<зесопс!>[0-5][0-9] )^І 
(?<Иіте20пе>2 |[+-](?:2[0-3]|[01][0-9])(?::?(?:[0-5][0-9]))?)$ 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

Дата и время 

Даты с часами, минутами и секундами (например, 2008-08-30 17:21:59 
или 20080830 172159). Пробел между датой и временем обязателен. Дефи¬ 
сы и двоеточия необязательны. Следующее регулярное выражение на¬ 
ходит значения даты и времени, в которых какие-то дефисы и двоето¬ 
чия могут быть опущены, вопреки требованиям стандарта 180 8601. 
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~([0-9]{4})-?(1[0-2]|0[1-9])-?(3[01]|0[1-9]| [12][0-9])^-І 
*(2[0-3] | [01][0-9]):?([0-5][0-9]):?([0-5][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

~ (?<уеаг>[0-9 ] {4})-? (?<топ1:1т>1 [0-2] 10[ 1 -9])-?—I 
(?<с!ау>3[01 ] 1 0[ 1 -9 ] | [12][0-9])»(?<Мои г>2[ 0-3 ] |[01][0-9])и 
:?(?<тіпи1:е>[0-5][0-9]) :?(?<зесопсІ>[0-5][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

Решение усложняется, если потребовать, чтобы регулярное выражение 
совпадало только со значениями даты и времени, в которых дефисы 
и двоеточия либо все присутствуют, либо все отсутствуют. Наиболее оче¬ 
видное решение достигается за счет использования условных конструк¬ 
ций. Но условные конструкции поддерживаются не всеми диалектами. 

~([0-9]{4})(-)?(1[0-2] |0[1-9])(?(2)-)(3[01]|0[1-9]|[12][0-9])и 
*(2[0-3]|[01][0-9])(?(2):)([0-5][0-9])(7(2):)([0-5][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, РСКЕ, Регі, РуІЬоп 

^(?<уеаг>[0-9]{4}) ( ?<ІпурГіеп>- )? (?<топ1:Гі>1 [0-2] 10[ 1 -9 ])Л 
(?(ГіурГіеп)-) (?<с!ау>3[01 ] |0[1-9] | [12][0-9])*(?<1іоиг>2[0-3] | [01][0-9])и 
(?( ОурОеп ):)( ?<тіпи1:е>[ 0-5][0-9])(?(ИурРеп):)(?<зесопс!>[0-5][0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, РСКЕ 7, Регі 5.10 

Л (?Р<уеаг>[0-9]{4} )(?Р<ГіурГ»еп>-)? (?Р<топ1:0>1 [0-2] 10[ 1 -9])—I 
(?(ІіурИеп)-)(?Р<с1ау>3[01 ] |0[1-9] | [12][0-9])*( ?Р<Гіои г>2[0-3] | [01 ][0-9])и 
(?( ГіурОеп ):) (?Р<тіпи1:е>[0-5] [0-9] )(?(ИурГіеп) : )(?Р<зесопс1>[0-5][0-9])$ 

Параметры: нет 

Диалекты: РСКЕ, Регі 5.10, РуЙюп 

Если используемый вами диалект не поддерживает условный оператор, 
можно применить оператор выбора для описания альтернатив с разде¬ 
лителями и без них. 

~(7: ([0-9]{4})-?(1[0-2] |0[1-9])-?(3[01] |0[1-9] | [12][0-9])^-І 
•(2[0-3]|[01][0-9]):?([0-5][0-9]):?([0-5][0-9])М 
([0-9]{4})(1[0-2]|0[1-9])(3[01]|0[1-9]|[12][0-9])и 
*(2[0-3]|[01][0-9])([0-5][0-9])([0-5][0-9]))$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

Даты и время на языке ХМІ. ЗсНета 

Типы значений для представления дат и времени в стандарте ХМЬ 
8сЬета основаны на стандарте 180 8601. В этом языке допускается ука¬ 
зывать отрицательный год в датах, предшествовавших началу кален¬ 
даря (до нашей эры). Также допускается указывать годы, состоящие из 
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четырех и более цифр, но не меньше. Годы, состоящие из более чем че¬ 
тырех цифр, должны начинаться с нуля. Если требуется обеспечить 
совпадение только с четырехзначными годами, как в предыдущих ре¬ 
шениях, удалите -?(?:[1-9][0-9]*)? из решений, следующих ниже. 

Дата с необязательным указателем часового пояса (например, 2008-08-30 
или 2008-08-30+07:00). Дефисы являются обязательными. Это тип данных 
сіаііе в языке ХМЬ 8скета: 

"(-?(?: [1-9][0-9]*)?[0-9]{4})-(1[0-2]|0[1-9])-(3[01]|0[1-9]|[12][0-9])и 
(2| [+-К? :2[0-3]| [01 ][0-9]): [0-5][0-9])?$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЪу 

~(?<уеаг>-?(? : [1-9][0-9]*)?[0-9]{4} )-(?<топТ1п>1[0-2] 10[ 1 -9])-Щ 

(?<с!ау>3[01 ] 10[ 1 -9] | [ 12][0-9])—I 

(?<Тітеіопе>7 |[+-](?:2[0-3]|[01][0-9]):[0-5][0-9])?$ 

Параметры: нет 

Диалекты: .1МЕТ, ^ѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

Время с необязательными долями секунды и часовым поясом (напри¬ 
мер, 01:45:36 или 01:45:36.123+07:00). Нет ограничения на число цифр для 
долей секунды. Это тип данных Ііте в языке ХМЬ 8сЬета: 

Д2[0-3]|[01][0-9]):([0-5][0-9]):([0-5][0-9])(\.[0-9]+)?и 
(7|[+-](?:2[0-3]|[01][0-9]):[0-5][0-9])?$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵабсгірі, РСКЕ, Регі, РуіЬоп, КиЬу 

~(?<Іюиг>2[0-3] | [01 ][0-9]): (?<тіпиИе>[0-5][0-9]) : (?<зесопс1>[0-5][0-9])и 
(?<-Ггас>\. [0-9]+)?(?<1:іте2Опе>2 1 [+-](? : 2[0-3] | [01 ][0-9]): [0-5][0-9])?$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

Дата и время с необязательными долями секунды и часовым поясом (на¬ 
пример, 2008-08-30Т01:45:36 или 2008-08-30101:45:36.1232). Это тип данных 
сіа^еТіте в языке ХМЬ 8сЬета: 

"(-?(?:[1-9][0-9]*)?[0-9]{4})-(1[0-2] |0[1-9])-(3[01]|0[1-9]|[12][0-9])«1 
Т(2[0-3]|[01][0-9]):([0-5][0-9]):([0-5][0-9])(\.[0-9]+)?^ 

{1\ [+-](? :2[0-3]| [01][0-9]):[0-5][0-9])?$ 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа, ^ѵабсгірі, РСКЕ, Регі, Руііюп, КиЬу 

''(?<уеаг>-?(? : [ 1 -9][0-9]*)?[0-9]{4})-(?<топ+Р>1 [0-2] 10[ 1-9])-Щ 
(?<с!ау>3[01 ] 10[ 1 -9] | [12][0-9])Т(?<0оиг>2[0-3] | [01][0-9]):и 
(?<тіпи1:е>[0-5][0-9]) : (?<зесопс1>[0-5][0-9])(?<тз>\. [0-9]+)?и 
(?<ите20пе>2| [+-](? :2[0-3]| [01 ][0-9]):[0-5][0-9])?$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^аѵ8і 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 
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Обсуждение 

Стандарт 180 8601 определяет широкий диапазон форматов представ¬ 
ления даты и времени. Регулярные выражения, представленные здесь, 
охватывают наиболее часто используемые форматы, но в большинстве 
систем, использующих стандарт 180 8601, применяют только ограни¬ 
ченный набор. Например, в языке ХМЬ 8сЬета дефисы и двоеточия 
в представлениях даты и времени являются обязательными элемента¬ 
ми. Чтобы обеспечить обязательность дефисов и двоеточий, достаточно 
просто удалить знак вопроса, стоящий после них. Чтобы запретить ис¬ 
пользование дефисов и двоеточий, нужно удалить эти символы и знаки 
вопроса, следующие за ними. Будьте внимательны с несохраняющими 
группами, которые определяются как <(?: •)>• Если знак вопроса и сим¬ 
вол двоеточия следуют за открывающей круглой скобкой, эти три сим¬ 
вола образуют открывающую скобку несохраняющей группы. 

Все числовые части регулярного выражения мы заключили в круглые 
скобки, упростив тем самым возможность извлечения года, месяца, 
дня, часов, минут, секунд и часового пояса. В рецепте 2.9 описывается, 
как с помощью круглых скобок создаются сохраняющие группы. В ре¬ 
цепте 3.9 описывается, как извлекать фрагменты текста, совпавшие 
с этими сохраняющими группами, в программном коде. 

Кроме того, для большинства регулярных выражений демонстрируется 
альтернатива, основанная на применении именованного сохранения. 
Некоторые из приведенных форматов представления даты и времени 
могут оказаться незнакомыми для вас или ваших коллег. Именованное 
сохранение делает регулярные выражения проще для понимания. Диа¬ 
лекты .ЫЕТ, Заѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10 и КиЬу 1.9 поддержива¬ 
ют синтаксис <(?<пате>—)>. Все версии РСКЕ и РуМюп, рассматриваемые 
в этой книге, поддерживают альтернативный синтаксис <(?Р <пате>—)>, 
где присутствует дополнительный символ <Р>. Подробнее об этом рас¬ 
сказывается в рецептах 2.11 и 3.9. 

Во всех регулярных выражениях введены ограничения на числовые 
диапазоны. Например, дни месяца ограничены диапазоном чисел от 01 
до 31. Выражения никогда не совпадут с 32-м числом или 13-м месяцем. 
Ни одно из приведенных регулярных выражений не пытается исклю¬ 
чить недопустимые комбинации числа и месяца, такие как 31 февраля. 
В рецепте 4.5 описывается, как решить эту проблему. 

Отдельные дефисы и двоеточия, которые не имеют точного соответст¬ 
вия стандарту 180 8601, в регулярных выражениях объявлены необя¬ 
зательными, кроме выражений, что приводятся в разделе решений для 
языка ХМЬ 8сЬете. Например, фрагмент 1733:26 согласно стандарту 
180 8601 не является допустимой формой записи времени, но он будет 
принят регулярными выражениями. Требование, чтобы все дефисы 
и двоеточия либо присутствовали, либо отсутствовали, немного услож¬ 
няет регулярное выражение. 
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Если все разделители будут одинаковыми, мы можем упростить регу¬ 
лярное выражение, используя сохраняющую группу для первого разде¬ 
лителя и обратные ссылки на остальные разделители. Пример такого 
подхода приводится выше в подразделе «Даты» в разделе «Решение». 
Для поиска первого дефиса применяется конструкция < (-?) >, < (?<ПурПеп>-?) > 
или < (?Р<1пурПеп>-?)>, соответствующая необязательному дефису и сохра¬ 
няющая его в именованной или нумерованной группе. Если дефис от¬ 
сутствует, группа сохранит строку нулевой длины. Знак вопроса, дела¬ 
ющий дефис необязательным, должен находиться внутри группы. Ес¬ 
ли сделать необязательной всю группу, обратные ссылки на эту группу 
будут терпеть неудачу, если сопоставление с дефисом не будет найдено, 
так как группа вообще не будет участвовать в сопоставлении. Для поис¬ 
ка совпадений с оставшимися дефисами в решениях применялась кон¬ 
струкция <\2>, <\к<ИурІ~іеп>> или <(?Р=ІіурІіеп)>, совпадающая с тем же тек¬ 
стом, с которым совпала сохраняющая группа - либо дефис, либо пус¬ 
тая строка в зависимости от наличия первого дефиса. Применяя нуме¬ 
рованное сохранение, необходимо убедиться в правильности номера 
для обратной ссылки. 

Если все разделители будут разными, как, например, в решении, вы¬ 
полняющем поиск дат и времени одновременно, регулярное выражение 
становится более сложным. Пример такого подхода приводится выше 
в подразделе «Даты и время» в разделе «Решение». На этот раз для сопо¬ 
ставления с дефисом используется конструкция <(-)?>, <(?<Пурііеп>-)?> 
или <(?Р<Пур(пеп>-)?>. Теперь знак вопроса находится за пределами сохра¬ 
няющей группы, чтобы она вообще не участвовала в сопоставлении при 
отсутствии дефиса. Это позволяет использовать сохраняющую группу 
с условием. Конструкция <(?(2)-)> соответствует дефису, а конструкция 
<(?(2) :)> соответствует двоеточию, если вторая сохраняющая группа уча¬ 
ствовала в сопоставлении. Условные операторы в данном случае не име¬ 
ют альтернатив. Это означает, что они будут совпадать ни с чем (причем 
это совпадение будет считаться успешным), если вторая сохраняющая 
группа не участвовала в сопоставлении. Конструкции <(?(ПурІ"іеп)-)> 
и <(?(ііурІіеп):)> делают то же самое, но с использованием именованного 
сохранения. 

Немногие диалекты поддерживают условные операторы. Если диалект 
не поддерживает условные конструкции, единственное решение заклю¬ 
чается в использовании оператора выбора с двумя вариантами - с раз¬ 
делителем и без него. Недостаток такого решения заключается в нали¬ 
чии двух сохраняющих групп для каждого элемента данных - даты 
и времени. Только одно из двух множеств сохраняющих групп будет 
участвовать в сопоставлении. Программный код, использующий такое 
регулярное выражение, будет вынужден проверить обе группы. 
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См. также 

В этой главе приводится еще несколько рецептов поиска совпадений 
с датами и временем. В рецептах 4.4 и 4.5 демонстрируется, как прове¬ 
рять даты в традиционных форматах. В рецепте 4.6 рассказывается, 
как проверять значения времени в традиционных форматах. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.10 обсуждаются обратные ссылки. 
В рецепте 2.11 описываются именованные группировки. В рецепте 2.12 
объясняется, как организовать сопоставление с повторяющимися ком¬ 
бинациями символов. В рецепте 2.17 демонстрируется применение 
условных конструкций. 

4.8. Ограничение возможности ввода 
алфавитно-цифровыми символами 

Задача 

В приложении требуется ограничить пользователя возможностью вво¬ 
дить только алфавитно-цифровые символы латинского алфавита (бук¬ 
вы А-2 и а -2 и цифры 0-9). 

Решение 

Благодаря регулярным выражениям решение получается тривиально 
простым. Сначала создается символьный класс, включающий требуе¬ 
мый диапазон символов. Затем добавляются квантификатор, повто¬ 
ряющий символьный класс один или более раз, и якорные метасимво¬ 
лы, привязывающие совпадение к началу и к концу строки. Вот и все. 

Регулярное выражение 

~[А-20-9]+$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаВсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Пример для КиЬу 

іТ зиЬзесІ: =“ /~[А-20-9]+$/і 

риТз "Текст содержит только алфавитно-цифровые символы" 

еізе 

риТз "Текст содержит не только алфавитно-цифровые символы" 
епр 
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Помощь в реализации этого регулярного выражения на других языках 
программирования можно получить в рецепте 3.6. В рецепте 3.4 демон¬ 
стрируется, как устанавливать параметры регулярных выражений, 
включая модификатор «нечувствительности к регистру символов». 

Обсуждение 

Рассмотрим это регулярное выражение, разделив его на четыре части: 

# Проверка совпадения с началом строки. 

[А-20-9] # Соответствует символу от ”А” до "Т или от "О" до "9"... 

+ # от одного до неограниченного числа раз. 

$ # Проверка совпадения с концом строки. 

Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЪу 

Проверки <"> и <$> в начале и в конце регулярного выражения гаранти¬ 
руют, что будет проверена вся введенная строка. Без них регулярное 
выражение могло бы совпасть лишь с частью более длинной строки, 
пропустив недопустимые символы. Квантификатор <+> повторяет пред¬ 
шествующий ему элемент один или более раз. Если потребуется обеспе¬ 
чить совпадение регулярного выражения с пустой строкой, можно про¬ 
сто заменить квантификатор <+> на <*>. Квантификатор <*> выполняет 
ноль или более повторений, делая предшествующий ему элемент необя¬ 
зательным. 

Варианты 

Ограничение возможности ввода символами А5СІІ 

Следующее регулярное выражение ограничивает возможность ввода 
128 символами из 7-битовой таблицы А8СП. В их число входят 33 не- 
отображаемых символа: 

Л [\х00-\х7Р]+$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵа8сгірі, РСКЕ, Регі, РуіЬоп, КиЬу 

Ограничение возможности ввода неуправляющими 
символами А5СІІ и символами разрыва строки 

Следующее регулярное выражение можно использовать, чтобы обеспе¬ 
чить возможность ввода только отображаемых и пробельных символов 
из таблицы А8СП, исключая управляющие символы. Символы перево¬ 
да строки и возврата каретки (с кодами ОхОА и Ох(Ю соответственно) яв¬ 
ляются наиболее часто используемыми управляющими символами, по¬ 
этому они явно были добавлены с помощью метасимволов <\п> (перевод 
строки) и <\г> (возврат каретки): 
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~[\п\г\х20-\х7Е]+$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЪу 

Ограничение возможности ввода символами, 
общими для кодировок 150-8859-1 и \Л/іпсІоѵѵ$-1252 

180-8859-1 и 1Ѵіп(Іолѵ8-1252 (часто называется АЫ8І) - это две наиболее 
широко используемые кодировки восьмибитовых символов, основан¬ 
ные на стандарте Ьаііп-І (если быть более точными, І80/ІЕС 8859-1). 
Однако они несовместимы между собой по символам с кодами от 0x80 
до 0х9Е. В кодировке 180-8859-1 эти коды отведены под управляющие 
символы, тогда как в кодировке ЛѴіпс1о\ѵз-1252 они используются для 
определения расширенного диапазона символов и знаков пунктуации. 
Эти отличия порой приводят к сложностям в отображении символов, 
особенно в документах, не объявляющих свою кодировку, или когда по¬ 
лучатель текста использует операционную систему, отличную от ІАГіп- 
сіолѵз. Следующее регулярное выражение может использоваться для 
ограничения ввода набором символов, общих для кодировок 180-8859-1 
и ѴѴтсклѵ8-1252 (включая общие управляющие символы): 

~[\хОО-\х7Р\хАО-\хРР]+$ 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа, ЛѵаВсгірі, РСКЕ, Регі, РуіЬоп, КиЬу 

Шестнадцатеричная форма записи может осложнить чтение этого регу¬ 
лярного выражения, но данный символьный класс действует точно так 
же, как и символьный класс <[А-20-9]>, показанный выше. Ему соответ¬ 
ствуют символы в двух диапазонах: \х00-\х7Р и \хА0-\хРР. 

Ограничение ввода алфавитно-цифровыми 
символами из любого языка 

Это регулярное выражение ограничивает возможность ввода алфавит¬ 
но-цифровыми символами из любого языка или алфавита: 

~[\р{І_}\р{М}\р{№}]+$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, КиЬу 1.9 

В нем используется символьный класс, который включает свойства для 
всех кодовых пунктов Юникода, относящихся к категориям букв (Ьеі- 
Іег), комбинационных знаков (Магк) или десятичных цифр (Бесітаі 
МшпЪег), что в точности соответствует определению алфавитно-цифро¬ 
вого символа в стандарте Юникода. Категория комбинационных зна¬ 
ков (Магк) включена в регулярное выражение, так как такие знаки ис¬ 
пользуются во многих языках. Комбинационные знаки - это кодовые 
пункты, предназначенные для объединения с другими символами (на¬ 
пример, надстрочный знак над основным символом). 
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К сожалению, категории Юникода поддерживаются не всеми диалек¬ 
тами регулярных выражений, рассматриваемыми в этой книге. В част¬ 
ности, это регулярное выражение не будет работать в ЗаѵаВсгірІ (без ис¬ 
пользования библиотеки ХКе&Ехр), РуЙюп и КиЪу 1.8. Кроме того, что¬ 
бы это регулярное выражение работало в диалекте РСКЕ, необходимо, 
чтобы библиотека РСКЕ была скомпилирована с поддержкой ІІТЕ-8. 
Категории Юникода могут использоваться в семействе функций ргед 
языка РНР (которые опираются на библиотеку РСКЕ) при добавлении 
флага /и в конец регулярного выражения. 

Следующее регулярное выражение демонстрирует обходное решение 
для диалекта Руііюп: 

~Г\м_]+$ 

Параметры: поддержка Юникода 

Диалект: РуНюп 

Отсутствие поддержки категорий Юникода в диалекте РуНюп компен¬ 
сируется использованием флага ІШССЮЕ или II при создании регуляр¬ 
ного выражения. Этот флаг изменяет действие некоторых метасимво¬ 
лов регулярных выражений, вынуждая их использовать таблицу сим¬ 
волов Юникода. Метасимвол <\м> составляет основную часть решения, 
поскольку ему соответствуют алфавитно-цифровые символы и символ 
подчеркивания. Используя его инвертированную версию <\М> в инвер¬ 
тированном символьном классе, можно удалить символ подчеркивания 
из допустимого набора символов. Двойное отрицание, как в этом выра¬ 
жении, иногда бывает весьма полезно в регулярных выражениях, хотя 
и осложняет их понимание. 1 В РуЙюп 3.x поддержка не-А8СІІ симво¬ 
лов включена в метасимволы, такие как <\\л/>, по умолчанию, благодаря 
чему не требуется указывать флаг ІШССЮЕ. 

См. также 

В рецепте 4.9 демонстрируется, как ограничить уже не набор символов, 
а длину текста. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 демонстрируется, как организо¬ 
вать сопоставление с непечатаемыми символами. В рецепте 2.3 расска¬ 
зывается о символьных классах. В рецепте 2.5 обсуждаются якорные 
метасимволы. В рецепте 2.7 рассказывается о сопоставлении с символа¬ 
ми Юникода. В рецепте 2.12 объясняется, как организовать сопоставле¬ 
ние с повторяющимися комбинациями символов. 


1 Для пущей забавы (если это попадает под ваше понятие забавы) попробуйте 
создать три, четыре или даже больше уровней отрицания, добавив негатив¬ 
ную проверку соседних символов (рецепт 2.16) и разность символьных клас¬ 
сов (раздел «Особенности, характерные для разных диалектов» в рецеп¬ 
те 2.3). 
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4.9. Ограничение длины текста 

Задача 

Необходимо убедиться, что строка имеет длину от 1 до 10 символов и со¬ 
держит только символы от А до 2. 

Решение 

Все языки программирования, рассматриваемые в этой книге, предо¬ 
ставляют простой и эффективный способ проверки длины текста. На¬ 
пример, строки в ^ѵаЗсгір! имеют свойство Іепдііі, которое хранит це¬ 
лое число, определяющее длину строки. Однако в некоторых ситуаци¬ 
ях бывает удобно проверять длину строки в регулярных выражениях, 
особенно когда длина является одним из нескольких факторов, опреде¬ 
ляющих совпадение испытуемого текста с требуемым шаблоном. Сле¬ 
дующее регулярное выражение гарантирует совпадение со строкой, 
длина которой составляет от 1 до 10 символов, и эта строка содержит 
только заглавные буквы от А до 2. Это регулярное выражение можно 
модифицировать под собственные нужды, установив иные значения 
минимальной и максимальной длины, или сделать допустимыми сим¬ 
волы из других диапазонов, отличных от А-2. 

Регулярное выражение 

"[А-2]{1,10}$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Пример для Регі 

ІГ ($АР6Ѵ[0] =- /~[А-2]{1,10}$/) { 
ргіпі: "Допустимый ввод\п"; 

} еізе { 

ргіпі: "Недопустимый ввод\п"; 

} 

Помощь в реализации этого регулярного выражения на других языках 
программирования можно получить в рецепте 3.6. 

Обсуждение 

Ниже это очень простое регулярное выражение разложено на состав¬ 
ляющие: 

# Проверка совпадения с началом строки. 

[А-2] # Соответствует символу в диапазоне от "А" до "2"... 

{1,10} # от 1 до 10 раз. 

$ # Проверка совпадения с концом строки. 
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Параметры: режим свободного форматирования 
Диалекты: .МЕТ, Заѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЪу 

Якорные метасимволы <~> и <$> гарантируют, что будет проверена вся ис¬ 
пытуемая строка, в противном случае регулярное выражение могло бы 
совпасть лишь с 10 символами более длинной строки. Символьному 
классу <[А-2]> соответствует любой символ верхнего регистра в диапазо¬ 
не от А до 2, а интервальный квантификатор <{1,10}> повторяет символь¬ 
ный класс от 1 до 10 раз. Благодаря комбинации интервального кван¬ 
тификатора с якорными метасимволами, совпадающими с началом 
и концом строки, регулярное выражение будет терпеть неудачу, если 
длина испытуемого текста выйдет за указанные пределы. 

Примечательно, что символьный класс <[А-2]> явно допускает наличие 
в строке только заглавных букв. Если в число допустимых потребуется 
добавить строчные буквы в диапазоне от а до 2 , достаточно будет просто 
заменить этот символьный класс на <[А-2а-г]> или применить режим не¬ 
чувствительности к регистру символов. В рецепте 3.4 демонстрируется, 
как это сделать. 

Многие, начиная осваивать регулярные выражения, часто допуска¬ 
ют ошибку, пытаясь сэкономить на вводе с клавиатуры, определяя 
символьный класс <[А-г]>. На первый взгляд, такая конструкция вы¬ 
глядит как удачный трюк, позволяющий определить диапазон всех 
символов верхнего и нижнего регистров. Однако между диапазона¬ 
ми А-2 и а -2 в таблице символов А8СІІ имеется несколько символов 
пунктуации. Поэтому символьный класс <[А-г]> в действительности 
является эквивалентом символьного класса <[А-2[\]"_'а-2]>. 


Ограничение длины для произвольного шаблона 

Поскольку такие квантификаторы, как <{1,10}>, применяются только 
к предшествующему элементу, ограничение количества символов, соот¬ 
ветствующих шаблону, который включает более одного элемента, тре¬ 
бует иного подхода. 

Как описывалось в рецепте 2.16, опережающие проверки (и противопо¬ 
ложные им ретроспективные проверки) являются проверками специ¬ 
ального вида, которые, как и метасимволы <~> и <$>, совпадают с пози¬ 
циями внутри испытуемой строки и не поглощают никакие символы. 
Опережающие проверки могут быть позитивными и негативными, то 
есть они могут проверять наличие или отсутствие совпадения с шабло¬ 
ном за текущей позицией. Позитивная опережающая проверка, запи¬ 
сываемая как <(?=■■■)>, может использоваться в начале шаблона, чтобы 
проверить, попадает ли длина строки в заданный диапазон. Остальная 
часть регулярного выражения может проверять соответствие требуемо- 
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му шаблону, не беспокоясь о длине текста. Ниже приводится простой 
пример реализации такого приема: 

"(?=.{ 1 , 10 }$).* 

Параметры: точке соответствуют границы строк 

Диалекты: .ИЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЬу 

~(?-[\2\з]{1 .10}$)[\3\з]* 

Параметры: пет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуИіоп, КиЬу 

Очень важно, что якорный метасимвол <$> находится внутри опережаю¬ 
щей проверки, потому что проверка максимальной длины будет рабо¬ 
тать, только если гарантируется отсутствие дополнительных символов 
сверх указанного предела. Так как опережающая проверка в начале ре¬ 
гулярного выражения уже ограничивает длину испытуемого текста, 
следующий за ней шаблон может накладывать другие ограничения. 
В данном случае шаблон <.*> (или <[\3\з]*> в версии, добавляющей под¬ 
держку Заѵа8сгір1) используется, чтобы просто обеспечить совпадение 
с испытуемым текстом без дополнительных ограничений. 

Первое регулярное выражение должно использоваться в режиме «точ¬ 
ке соответствуют границы строк», чтобы обеспечить корректную рабо¬ 
ту регулярного выражения, когда испытуемая строка содержит разры¬ 
вы строк. Как активировать этот режим в разных языках программи¬ 
рования, подробно рассказывается в рецепте 3.4. В ^ѵа8сгір1 (без ис¬ 
пользования библиотеки ХКе&Ехр) отсутствует поддержка режима 
«точке соответствуют границы строк», поэтому во втором регулярном 
выражении используется символьный класс, совпадающий с любым 
символом. Дополнительная информация приводится в разделе «Любой 
символ, включая символы конца строки» в рецепте 2.4. 

Ограничение числа непробельных символов 

Следующему регулярному выражению соответствует любая строка, со¬ 
держащая от 10 до 100 непробельных символов: 

Лз*(?:\3\з*){Ю,100}$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

По умолчанию в диалектах ЫЕТ, ^ѵаЗсгірѣ, Регі и РуіЬоп 3.x метасим¬ 
вол <\з> соответствует всем пробельным символам Юникода, а метасим¬ 
вол <\3> - всем остальным символам. В диалектах ^ѵа, РСКЕ, РуПюп 2.x 
и КиЬу метасимволу <\з> соответствуют только пробельные символы 
А8СП, а метасимволу <\3> - все остальные символы. В РуІЬоп 2.x можно 
обеспечить совпадение метасимвола <\з> со всеми пробельными симво¬ 
лами Юникода, передав флаг ІШССЮЕ или У при создании регулярного 
выражения. В Заѵа 7 того же эффекта можно добиться, передав флаг 
УМІС(ЮЕ_СНАНАСТЕК_СІ_АЗЗ. В диалектах ^ѵа (версии с 4 по 6), РСКЕ 
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и КиЪу 1.9, если необходимо исключить учет пробельных символов 
Юникода при определении предельного числа символов, можно приме¬ 
нить следующую версию регулярного выражения, в которой использу¬ 
ются свойства Юникода (описываются в рецепте 2.7): 

~[\р{2}\$]*(?: ['Лр{2}\з][\р{2}\з]*){10,100}$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РОКЕ, Регі, КиЪу 1.9 

Чтобы это регулярное выражение работало в диалекте РСКЕ, библиоте¬ 
ка РСКЕ должна быть скомпилирована с поддержкой ІІТЕ-8. В языке 
РНР включить поддержку ІІТЕ-8 можно с помощью модификатора шаб¬ 
лона /и. 

Это последнее регулярное выражение объединяет свойство 8ерага1ог 
Юникода, <\р{2}>, с метасимволом <\з>, совпадающим с любым пробель¬ 
ным символом. Диапазоны символов, соответствующих <\р{2}> и <\з>, не 
перекрываются полностью. В диапазон <\з> входят символы с кодами от 
0x09 до ОхОБ (табуляция, перевод строки, вертикальная табуляция, пе¬ 
ревод формата и возврат каретки), которые согласно стандарту Юнико¬ 
да не имеют свойства 8ерага1ог. Объединение метасимволов <\р{2}> и <\з> 
в символьный класс гарантирует совпадение с любыми пробельными 
символами. 

В обоих регулярных выражениях квантификатор <{10,100}> применяет¬ 
ся к предшествующей ему несохраняющей группе, а не к единственному 
элементу. Группе соответствует любой непробельный символ, за кото¬ 
рым могут следовать ноль или более пробельных символов. Интерваль¬ 
ный квантификатор способен надежно проследить количество совпав¬ 
ших непробельных символов, потому что в каждой итерации возможно 
совпадение только с одним непробельным символом. 

Ограничение числа слов 

Следующее регулярное выражение очень похоже на предыдущий при¬ 
мер ограничения числа непробельных символов, за исключением того, 
что здесь выполняется подсчет слов, а не отдельных непробельных сим¬ 
волов. Оно совпадает с текстом, содержащим от 10 до 100 слов, пропус¬ 
кая любые символы, не являющиеся символами слова, включая знаки 
пунктуации и пробельные символы: 

ЛМ*(?:\м+\Ь\1л1*){10,100}$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЪоп, КиЪу 

В диалектах Лѵа (версии с 4 по 6), ЛѵаВсгірІ, РСКЕ, РуІЪоп 2.x и КиЪу 
метасимвол <\\л/>, обозначающий символ слова, в этом регулярном выра¬ 
жении будет совпадать только с символами А-2, а- 2 , 0-9 и символом 
подчеркивания _. Поэтому он не может использоваться для подсчета 
слов, содержащих буквы и цифры, не входящие в набор А8СІІ. В диа- 
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лектах .ЫЕТ и Регі метасимвол <\м> опирается на таблицу символов 
Юникода (так же как и его инвертированная версия и граница сло¬ 

ва <\Ь>) и будет совпадать со всеми буквами и цифрами из всех алфави¬ 
тов Юникода. В диалекте Руііюп 2.x имеется возможность выбирать, 
будут эти метасимволы использовать Юникод или нет в зависимости от 
того, устанавливается ли флаг ІШССЮЕ или У при создании регулярного 
выражения. В РуЙюп 3.x они используют Юникод по умолчанию. 
В Заѵа 7 имеется возможность выбирать, будут эти метасимволы ис¬ 
пользовать Юникод или нет, с помощью флага ІІМІС00Е_СНАПАСТЕР_СІАЗЗ. 
Метасимвол <\Ь> в Заѵа всегда использует Юникод. 

Если необходимо подсчитать количество слов, содержащих буквы и циф¬ 
ры, не входящие в набор А8СІІ, эту возможность обеспечат следующие 
регулярные выражения для дополнительных диалектов регулярных 
выражений. 

~[Лр{1}\р{М}\р{Мсі}\р{Рс} ]*(? : [\р{1}\р{М}\р{Мй}\р{Рс} ]+и 
\Ь[Лр{1}\р{М}\р{МР}\р{Рс} ]*) {10,100}$ 

Параметры: нет 
Диалекты: .ЫЕТ, ^ѵа, Регі 

~[Лр{1}\р{М}\р{МР}\р{Рс} ]*(?: [\р{1}\р{М}\р{Мсі}\р{Рс} ]+и 
(?: [~\р{І_}\р{М}\р{І\Ісі}\р{Рс} ]+1 $)) {10,100}$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, КиЬу 1.9 

Для выполнения этой работы библиотека РСКЕ должна быть скомпи¬ 
лирована с поддержкой ІГГЕ-8. Включить поддержку РГТЕ-8 в языке 
РНР можно с помощью модификатора шаблона /и. 

Как было отмечено, причина появления различных (но эквивалентных) 
версий регулярных выражений кроется в различных интерпретациях 
метасимволов, обозначающих символы слова и границу слова, о чем 
подробнее рассказывается в разделе «Символы слов» в рецепте 2.6. 

В последних двух регулярных выражениях используются отдельные 
категории Юникода, соответствующие буквам, комбинационным зна¬ 
кам (необходимы для сопоставления со словами во многих языках), де¬ 
сятичным цифрам и знакам-соединителям (символ подчеркивания и по¬ 
добные ему), чтобы обеспечить их эквивалентность предыдущим регу¬ 
лярным выражениям, опиравшимся на использование метасимволов 

<\\л/> И <\\Л/>. 

Каждое повторение несохраняющей группы в первых двух регулярных 
выражениях из трех совпадает с целым словом, за которым следует 
ноль или более символов, не являющихся символами слова. Метасим¬ 
вол <\\л/> (или символьный класс <[Лр{Е}\р{М}\р{М}\р{Рс}]>) внутри груп¬ 
пы может повторяться нулевое число раз в случае, если строка закан¬ 
чивается символом слова. Но поскольку в результате этого последова¬ 
тельность символов, не являющихся символами слова, фактически де¬ 
лается необязательной для всего процесса сопоставления, становится 
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необходимой проверка границы слова <\Ь> между <\ѵ\/> и <\1 Н> (или между 
<[\р{Ь}\р{М}\р{МсІ}\р{Рс}]> и <[Др{Е}\р{М}\р{Мс1}\р{Рс}]>), чтобы гарантиро¬ 
вать, что при каждом повторении группа действительно будет совпа¬ 
дать с целым словом. Без проверки границы слова группа при некото¬ 
ром повторении могла бы совпасть с любой частью слова, а при после¬ 
дующих повторениях - с дополнительными частями. 

Третья версия регулярного выражения (где была добавлена поддержка 
диалектов ХКе&Ехр, РСКЕ и КиЬу 1.9) действует несколько иначе. Вме¬ 
сто квантификатора звездочки (ноль или более повторений) в ней ис¬ 
пользуется квантификатор плюс (одно или более повторений) и явно 
допускается совпадение с нулевым числом символов, только когда про¬ 
цесс сопоставления достигнет конца строки. Это позволяет избежать 
использования метасимвола границы слова, который был необходим, 
чтобы обеспечить точность подсчета, так как в диалектах ХКе^Ехр, 
РСКЕ или КиЬу метасимвол <\Ь> не поддерживает Юникод. В диалекте 
Лѵа метасимвол <\Ь> поддерживает Юникод, при том что метасимвол 
<\м> в этом же диалекте его не поддерживает (если не установлен флаг 
ШС00Е_СНАНАСТЕВ_С1_АЗЗ в ^ѵа 7). 

К сожалению, ни одна из этих возможностей не позволяет корректно 
обрабатывать слова, в которых используются буквы и цифры, не входя¬ 
щие в набор А8СІІ, в диалектах ^ѵа8сгірІ и КиЬу 1.8. Одно из возмож¬ 
ных решений заключается в том, чтобы переориентировать регулярное 
выражение на подсчет пробельных символов, а не последовательностей 
символов слов, как показано ниже: 

Лз*(?:\3+(?:\5+|$)){10,100}$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, Регі, РСКЕ, РуІЬоп, КиЬу 

Во многих случаях это выражение будет давать те же результаты, что 
и предыдущие решения, хотя они не являются точными эквивалента¬ 
ми. Например, одно из различий заключается в том, что составные сло¬ 
ва, разделенные дефисом (такие как «1аг-геасЫп&»), в этом случае бу¬ 
дут интерпретироваться не как два слова, а как одно. 

См. также 

Рецепт 4.8, где демонстрируется, как ограничить ввод не длиной, а опре¬ 
деленным набором символов (алфавитно-цифровыми, только символа¬ 
ми А8СІІ и т. д.). 

Рецепт 4.10, где объясняются тонкости точного ограничения количест¬ 
ва строк в тексте. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.4 говорится, что точке соответствуют любые сим¬ 
волы. В рецепте 2.5 обсуждаются якорные метасимволы. В рецепте 2.7 




348 


Глава 4. Проверка и форматирование 


рассказывается о сопоставлении с символами Юникода. В рецепте 2.12 
объясняется, как организовать сопоставление с повторяющимися ком¬ 
бинациями символов. В рецепте 2.16 рассказывается об опережающих 
и ретроспективных проверках. 

4.10. Ограничение числа строк в тексте 

Задача 

Необходимо убедиться, что испытуемый текст содержит не больше пяти 
строк независимо от того, сколько символов содержится в этом тексте. 

Решение 

Символы или последовательности символов, применяемые для разде¬ 
ления строк, могут отличаться в разных операционных системах в за¬ 
висимости от принятых в них соглашений, используемых приложений, 
предпочтений пользователей и т. д. Поэтому для выработки идеального 
решения необходимо ответить на вопрос о том, какие соглашения об 
обозначении начала новой строки должны поддерживаться. Решения, 
следующие ниже, поддерживают соглашения о разрывах строк, при¬ 
нятые в М8-Б08/\Ѵіп(1о\ѵ8 (<\г\п>), в устаревшей версии Мае 08 (<\г>) 
и в ПШХ/Ілпих/В8Ц/08 X (<\п>). 

Регулярное выражение 

Следующие три регулярных выражения для разных диалектов имеют 
два отличия. В первом регулярном выражении вместо несохраняющей 
группировки, которая оформляется как <(?:—)>, используется атомар¬ 
ная группировка, которая оформляется как <(?>—)>, потому что атомар¬ 
ная группировка обладает несколько более высокой эффективностью 
в диалектах, которые ее поддерживают. РуІЬоп и ^ѵаЗсгір! не поддер¬ 
живают атомарную группировку, поэтому в решениях для этих диалек¬ 
тов она не используется. Другое отличие заключается в метасимволах, 
применяемых для проверки начала и конца строки (метасимволы <\А> 
или <~> проверяют совпадение с началом строки, а метасимволы <\і>, <\2> 
или <$> - с концом строки). Подробнее эти различия будут обсуждаться 
ниже в этом рецепте. Все три регулярных выражения в точности соот¬ 
ветствуют одним и тем же строкам: 

\А(?>[~\г\п]*(?>\г\п?|\п)){0, 4}[~\г\п]*\2 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, КиЬу 

\А(?: ["\г\п]*(? :\г\п? |\п) ){0, 4}[~\г\п]*\2 

Параметры: нет 

Диалект: РуіЬоп 
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: [~\г\п]*(? :\г\п? |\п)){0,4}[~\г\п]*$ 

Параметры: нет (режим «символам ~ и $ соответствуют границы строк» 
должен быть выключен) 

Диалект: Заѵа8сгірі; 


Пример для РНР (РСКЕ) 

ІГ (ргед_та1:с(і( '/\А(?>["\г\п]*(?>\г\п? |\п)){0,4}["\г\п]*\г/', 

$_Р03Т[ ’зиГ^есГ' ])) { 

ргіпі: 'Испытуемый текст содержит не более пяти строк'; 

} еізе { 

ргіпі; 'Испытуемый текст содержит более пяти строк’; 

} 

Помощь в реализации этого регулярного выражения на других языках 
программирования можно получить в рецепте 3.6. 


Обсуждение 


Все регулярные выражения, продемонстрированные к настоящему мо¬ 
менту в этом рецепте, используют группировку для поиска совпадений 
с последовательностями, обозначающими разрывы строк, оформлен¬ 
ными в стиле МЗ-БОЗ/ѴѴіпсклуз, устаревшей версии Мае 08 или ІШІХ/ 
Ыпих/В8Б/08 X, за которыми следует произвольное число любых дру¬ 
гих символов. Группировка повторяется от нуля до четырех раз, по¬ 
скольку согласно условиям требуется обеспечить совпадение не более 
чем с четырьмя разрывами строк в тексте, содержащем не более пяти 
строк. После группы допускается наличие еще одной, последней после¬ 
довательности символов, не содержащей символов разрыва строк, фор¬ 
мирующей пятую строку. 

Ниже приводится первая версия регулярного выражения, разбитая на 
отдельные части. Отличия в версиях для других диалектов мы объяс¬ 
ним ниже: 


\А 

(?> 

Г\г\п]* 

(?> 

\Г\П? 


\п 

) 

) { 0 , 4 } 
Г\г\п]* 
\2 


# Проверить совпадение с началом строки. 

# Группировка, но не сохраняющая 

# и не запоминающая позицию для возврата 

# Ноль или более любых символов, кроме СВ и І_Р. 

# Группировка, но не сохраняющая 

# и не запоминающая позицию для возврата 

# Соответствует символу возврата каретки (СВ), 

# за которым может следовать символ перевода строки ГР. 

# Или: 

# Соответствует символу перевода строки ЬР 

# Конец несохраняющей атомарной группы. 

# Конец группы, повторить ее от нуля до четырех раз. 

# Ноль или более любых символов, кроме СВ и ЬР. 

# Проверить совпадение с концом строки. 


Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 
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Первый метасимвол <\А> совпадает с позицией начала текста, а символ 
<\і> - с концом. Это позволит гарантировать, что весь текст будет содер¬ 
жать не более пяти строк, потому что, если не привязать регулярное 
выражение к началу текста, оно может совпасть с любыми пятью стро¬ 
ками внутри более объемного текста. 

Следующая атомарная группа (рецепт 2.14) включает в себя символь¬ 
ный класс, которому соответствует любое количество символов, не яв¬ 
ляющихся символами конца строки, и подгруппу, совпадающую с по¬ 
следовательностью символов конца строки. Совпадение с символьным 
классом объявлено необязательным (следующим за ним квантификато¬ 
ром, допускающим нулевое число совпадений), но подгруппа является 
обязательной, и ей должна соответствовать точно одна последователь¬ 
ность символов конца строки на каждое повторение внешней группы. 
За внешней группой следует квантификатор, позволяющий находить от 
нуля до четырех совпадений с ней. Нулевому числу совпадений соответ¬ 
ствует пустой текст или единственная строка, не содержащая символы 
конца строки. 

Вслед за внешней группой следует еще один символьный класс, которо¬ 
му соответствует ноль или более любых символов, не являющихся сим¬ 
волами конца строки. Это позволяет регулярному выражению найти 
совпадение с пятой строкой в испытуемом тексте, если она присутству¬ 
ет. Этот класс нельзя опустить и заменить предшествующий ему кван¬ 
тификатор на <{0,5}>, потому что в этом случае для совпадения с регу¬ 
лярным выражением испытуемый текст должен был бы заканчиваться 
символом завершения строки. Кроме того, если последняя строка ока¬ 
жется пустой, такая замена привела бы к возможности совпадения 
с текстом, содержащим шесть строк, поскольку шесть строк разделя¬ 
ются пятью разрывами строк. Но это противоречит условиям задачи. 

Во всех этих регулярных выражениях подгруппа определяет одну из 
трех последовательностей символов конца строки: 

• Символ возврата каретки, за которым следует символ перевода стро¬ 
ки (<\г\п>, последовательность символов конца строки, обычная для 
М8-Б08/ДѴіпсіодѵз) 

• Отдельный символ возврата каретки (<\г>, символ конца строки в ус¬ 
таревшей версии Мае 08) 

• Отдельный символ перевода строки (<\п>, символ конца строки, обыч¬ 
ный для ИШХ/Ьтих/ВЗБ/ОЗ X) 

Теперь перейдем к различиям между диалектами. 

Первая версия регулярного выражения (совместимая со всеми диалекта¬ 
ми, за исключением РуІЬоп и ЛѵаЗсгірІ) использует не простую несохра¬ 
няющую группировку, а атомарную. В некоторых случаях использова¬ 
ние атомарной группировки может оказывать более существенное влия¬ 
ние, но в данной ситуации она просто позволяет механизму регулярных 
выражений избежать ненужных возвратов, необходимость в которых 
может возникнуть, если попытка совпадения начнет терпеть неудачу. 
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Еще одно отличие между версиями для разных диалектов - это мета¬ 
символы, используемые для проверки совпадения с началом и концом 
текста. Все диалекты, обсуждаемые в этой книге, поддерживают мета¬ 
символы <"> и <$>. Тогда почему в некоторых решениях вместо них ис¬ 
пользуются <\А>, <\Ь и <Ѵ>? Если говорить коротко, это объясняется тем, 
что значения этих метасимволов несколько отличаются в разных диа¬ 
лектах. Для подробного объяснения придется погрузиться в историю 
развития регулярных выражений... 

Когда в языке Регі выполнялось чтение строк из файла, получающаяся 
строка заканчивалась символом конца строки. Вследствие этого в Регі 
было «расширено» традиционное значение метасимвола <$>, которое за¬ 
тем было скопировано большинством других диалектов регулярных 
выражений. В дополнение к совпадению с абсолютным концом всего 
текста метасимвол <$> в языке Регі совпадает также с позицией непо¬ 
средственно перед символом конца строки. Кроме того, в язык Регі бы¬ 
ли введены еще две проверки, совпадающие с концом текста: <Ѵ> и <\г>. 
Якорный метасимвол <\2> в языке Регі имеет почти то же значение, что 
и метасимвол <$>, за исключением того, что на него не оказывает влия¬ 
ние режим, позволяющий метасимволам <~> и <$> совпадать с символами 
конца строки. Метасимвол <\г> всегда совпадает только с абсолютным 
концом текста, без всяких исключений. Поскольку в этом рецепте мы 
имеем дело с символами конца строки, с помощью которых производит¬ 
ся подсчет строк в тексте, то, чтобы убедиться в отсутствии шестой стро¬ 
ки, здесь используется проверка <\г> в диалектах, поддерживающих ее. 

Большинство других диалектов регулярных выражений скопировало 
из языка Регі якорные метасимволы, обозначающие конец строки/тек¬ 
ста. Диалекты .ЫЕТ, ^ѵа, РСКЕ и КиЬу поддерживают оба метасимво¬ 
ла, <Ѵ> и <\і>, которые в этих диалектах имеют то же значение, что 
и в языке Регі. В РуІЬоп имеется только метасимвол <\2> (в верхнем ре¬ 
гистре), но он имеет немного сбивающее с толку значение, совпадая 
только с абсолютным концом текста, как метасимвол <\г> (в нижнем ре¬ 
гистре) в языке Регі. В диалекте ^ѵабсгірі отсутствуют якорные мета¬ 
символы « 2 », но, в отличие от всех остальных диалектов, рассматривае¬ 
мых в этой книге, якорный метасимвол <$> в этом диалекте совпадает 
только с абсолютным концом текста (когда отключен режим, допускаю¬ 
щий совпадение метасимволов Г> и <$> с границами строк). 

В случае с метасимволом <\А> ситуация немного лучше. Он всегда совпа¬ 
дает только с началом текста и одинаково интерпретируется во всех 
диалектах, рассматриваемых в этой книге, за исключением Лѵа8сгірІ 
(который не поддерживает его). 

Несмотря на существование досадных разногласий между диалек¬ 
тами, одно из преимуществ регулярных выражений, которые при¬ 
водятся в этой книге, состоит в том, что в большинстве случаев вам 
не придется беспокоиться по поводу этих различий. Кровавые по- 
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дробности, подобные только что описанным, мы включаем только 
для тех, кто желает получить более глубокие знания. 


Варианты 

Работа с необычными разделителями строк 

Регулярные выражения, продемонстрированные выше, ограничивают¬ 
ся поддержкой последовательностей символов конца строки, обычных 
для МЗ-БОЗ/ААГіпсклѵз, устаревшей версии Мае 08 и ІШІХ/Ілпих/ВЗБ/ 
08 X. Однако существуют некоторые другие редко встречающиеся за¬ 
вершающие пробельные символы, с которыми можно столкнуться. Сле¬ 
дующие регулярные выражения учитывают возможность появления 
этих дополнительных символов, также ограничивая совпадение не бо¬ 
лее чем пятью строками. 

\А(?>\Ѵ*\В){0, 4}\Ѵ*\2 

Параметры: нет 

Диалекты: РСКЕ 7.2 (с параметром РСПЕ_ВЗР_1ШС(ЮЕ), Регі 5.10 

\А(?>[Лп-\г\х85\х{2028}\х{2029}]*(?>\г\п?М 

[\п-Ѵ\х85\х{2028}\х{2029}])){0,4}[Лп-\г\х85\х{2028}\х{2029}]*\2 

Параметры: нет 

Диалекты: ^ѵа 7, РСКЕ, Регі 

\А(?>[Лп-\г\и0085\и2028\и2029]*(?>\г\п?М 
[\п-\Г\и0085\и2028\и2029])){0,4}[~\п-\г\и0085\и2028\и2029]*\2 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, КиЪу 1.9 

\А(?>[Лп-\г\х85\и2028\и2029]*(?>\г\п?М 

[\п-\Г\х85\и2028\и2029])){0,4}[Лп-\г\х85\и2028\и2029]*Ѵ 

Параметры: нет 
Диалекты: .ЫЕТ, ^ѵа 

\А(?: [Лп-\г\х85\и2028\и2029]*(? :\г\п? М 
[\п-\Г\х85\и2028\и2029])){0,4}[Лп-\г\х85\и2028\и2029]*Ѵ 

Параметры: нет 
Диалект: РуІЬоп 

~(?: [Лп-\г\х85\и2028\и2029]*(? :\г\п? М 
[\п-\Лх85\и2028\и2029])){0,4}[Лп-\г\х85\и2028\и2029]*$ 

Параметры: нет (режим «символам " и $ соответствуют границы строк» 
должен быть выключен) 

Диалект: ^ѵаЗсгірі 

КиЬу 1.8 не поддерживает символы Юникода в регулярных выражени¬ 
ях, и потому не может использовать ни один из использованных здесь 
приемов. КиЬу 1.9 не поддерживает сокращенный синтаксис <\хЛ/Л/> для 
представления не-А8СІІ символов (с кодами выше Ох7Е), и потому в ре¬ 
шении для него приходится использовать <\и0085> вместо <\х85>. 
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Все эти регулярные выражения обрабатывают разделители, перечис¬ 
ленные в табл. 4.1 вместе с их кодовыми пунктами и именами в Юнико¬ 
де. В этот список включены символы, которые стандартом Юникода 
определяются как символы завершения строк. 

Таблица 4.1. Разделители строк 


Последова¬ 

тельность 

в Юникоде 

Эквивалент 
в регулярных 
выражениях 

Название 

Аббре¬ 

виатура 

Когда 

используется 

и+ооой и+ооод 

<\г\п> 

Возврат каретки 
и перевод строки 

СКЬГ 

Текстовые файлы 
в А/Ѵіпскпѵз 
и М8-Б08 

и+оооА 

<\п> 

Перевод строки 

і 

ЬГ 

і 

Текстовые файлы 
в ІШІХ, Ьіпих, 

В8Б и 08 X 

11+000В 

<\ѵ> или <\хОВ> 

Вертикальная 

табуляция 

ѵт 

(Редко) 

1М00С 

<Ѵ> 

Перевод формата 

гг 

(Редко) 

и+оосю 

<\г> 

Возврат каретки 

ск 

Текстовые файлы 
в старых версиях 
Мае 08 

0+0085 

<\х85> или 
<\х0085> 

Следующая 

строка 

і 

ЫЕЬ 

і 

Текстовые файлы 
в суперкомпьюте¬ 
рах ІВМ 

0+2028 

<\и2028> или 
<\х{2028}> 

Разделитель 

строк 

Ь8 

(Редко) 

11+2029 

<\и2029> или 
<\х{2029}> 

Разделитель 

абзацев 

Р8 

(Редко) 


См. также 

Рецепт 4.9, где демонстрируется, как ограничить уже не набор симво¬ 
лов, а длину текста. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 демонстрируется, как организо¬ 
вать сопоставление с непечатаемыми символами. В рецепте 2.3 расска¬ 
зывается о символьных классах. В рецепте 2.5 обсуждаются якорные 
метасимволы. В рецепте 2.7 рассказывается о сопоставлении с символа¬ 
ми Юникода. В рецепте 2.9 рассказывается о группировке. В рецеп¬ 
те 2.12 объясняется, как организовать сопоставление с повторяющими¬ 
ся комбинациями символов. В рецепте 2.14 описывается атомарная 
группировка. 
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4.11. Проверка утвердительных ответов 

Задача 

Необходимо проверить параметры настройки или ответ, введенный 
в командной строке, на совпадение с положительным утверждением. 
Требуется обеспечить достаточную гибкость в принятии ответов, чтобы 
такие ответы, как ігііе, I, уез, у, окау, о к и 1, принимались в любых ком¬ 
бинациях символов верхнего и нижнего регистров. 

Решение 

Использовать регулярное выражение, объединяющее в себе все допус¬ 
тимые формы и позволяющее выполнить проверку с помощью одного 
простого критерия. 

Регулярное выражение 

~(?:1 |*(? :гие)?|у(? :ез)? |ок(?:ау)?)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуіЬоп, КиЬу 

Пример для .ІаѵаБсгірІ: 

ѵаг уез = /**(?: 111:(?: гие)? |у(? :ез)? |ок(? :ау)?)$/і; 

іГ (уез. ІезіСзи^есІ:)) { 
а1ег1:("Уез"): 

} еізе { 

аІегК ”N0” ); 

} 

Помощь в реализации этого регулярного выражения на других языках 
программирования можно получить в рецепте 3.6. В рецепте 3.4 демон¬ 
стрируется, как устанавливать параметры регулярных выражений, 
включая модификатор «нечувствительности к регистру символов». 

Обсуждение 

Ниже приводится регулярное выражение, разложенное на отдельные 
составляющие. Комбинации элементов, которые проще читать вместе, 
приводятся в одной строке: 

# Проверка совпадения с началом строки. 

(?: # Группировка, но несохраняющая... 

1 # Проверка соответствия литералу ”1”. 

| # или... 

1:(?: гие)? # Проверка соответствия с ”1”, 

# за которым может следовать ”гие”. 

I # или... 
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у(?:ез)? # 

# 

I # 

ок(?:ау)? # 

# 

) # 
$ # 


Проверка соответствия с "у", 
за которым может следовать "ез". 
или. . . 

Проверка соответствия с "ок", 
за которым может следовать "ау". 
Конец несохраняющей группы. 

Проверка совпадения с концом строки. 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, Заѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЬу 


Регулярное выражение фактически проверяет совпадение с одним из се¬ 
ми литералов без учета регистра символов. Его можно записать разны¬ 
ми способами. Например, выражение < Л (?: [Іѣу] |1:гие|уез|ок(? :ау)?)$> ни¬ 
чуть не хуже предыдущего. Простая проверка совпадения с одной из се¬ 
ми альтернатив, например <~(?:111:|1:гие|у |уез|ок|окау)$>, также прекрасно 
справляется с поставленной задачей, хотя с точки зрения производи¬ 
тельности обычно лучше минимизировать количество альтернатив, пе¬ 
речисляемых с помощью оператора выбора <|> в символьных классах 
и необязательных элементах (к которым применяется квантификатор 
<?>). В данном случае падение производительности наверняка не будет 
превышать нескольких микросекунд, но для пользы дела всегда следу¬ 
ет помнить о проблемах, связанных с производительностью регуляр¬ 
ных выражений. Иногда различия между этими способами реализа¬ 
ции могут вызывать неподдельное удивление. 

Во всех этих примерах потенциальные совпадения заключены в несо¬ 
храняющую группу, чтобы ограничить область действия операторов 
выбора. Если убрать группировку и использовать, например, такое вы¬ 
ражение, как <~1:гие|уез$>, механизм регулярных выражений будет ис¬ 
кать «начало строки, за которым следует фрагмент «Ігие» или «уез», за 
которым следует конец строки». Выражение <~(?:1:гие|уез)$> предписы¬ 
вает механизму регулярных выражений отыскать начало строки, по¬ 
том отыскать «Ігие» или «уез», а потом - конец строки. 


См. также 

Рецепты 5.2 и 5.3, где приводятся дополнительные примеры сопостав¬ 
ления с любым из множества слов. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.5 обсуждаются якорные метасим¬ 
волы. В рецепте 2.8 описывается применение оператора выбора. В ре¬ 
цепте 2.9 рассказывается о группировке. В рецепте 2.12 объясняется, 
как организовать сопоставление с повторяющимися комбинациями 
символов. 




356 


Глава 4. Проверка и форматирование 


4.12. Проверка номеров социального страхования 

Задача 

Необходимо проверить, является ли некоторый текст допустимым но¬ 
мером социального страхования. 

Решение 

Если требуется просто убедиться, что текст следует формату записи но¬ 
меров социального страхования, и отвергнуть очевидно недопустимые 
значения, легко решить эту задачу можно с помощью приведенного ни¬ 
же регулярного выражения. Если требуется более строгое решение, ко¬ 
торое выполняет сверку с данными Управления социального обеспече¬ 
ния, чтобы определить, принадлежит ли этот номер существующему 
человеку, обращайтесь к разделу «См. также» этого рецепта. 

Регулярное выражение 

~(?!000|666)[0-8][0-9]{2}-(?!00)[0-9]{2}-(?!0000)[0-9]{4>$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Пример для РуіНоп 

ІГ ге. таІсГіС г"~(?! 0001666)[0-8][0-9]{2}-(?! 00)[0-9]{2} 

(?!0000)[0-9]{4}$”, зуз.агдѵ[1]): 

ргіпі: "Корректный номер социального страхования” 
еізе: 

ргіпі: "Некорректный номер социального страхования” 

Помощь в реализации этого регулярного выражения на других языках 
программирования можно получить в рецепте 3.6. 

Обсуждение 

Номера социального страхования в Соединенных Штатах состоят из де¬ 
вяти цифр и имеют формат ААА-66-8888: 

• Первые три цифры прежде (до 2011 года) определяли географиче¬ 
ский регион и называются номером зоны . Номер зоны не может 
иметь значения 000, 666 и в диапазоне от 900 до 999. 

• Четвертая и пятая цифры называются номером группы , который мо¬ 
жет изменяться в диапазоне от 01 до 99. 

• Последние четыре цифры составляют личный номер у который может 
изменяться в диапазоне от 0001 до 9999. 

Решение для этого рецепта соблюдает все ограничения, перечисленные 
выше. Ниже снова приводится регулярное выражение, на этот раз раз¬ 
ложенное на отдельные составляющие: 
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(?! 000 | 666 ) 
[ 0 - 8 ] 

[0-9]{2} 

(?! 00 ) 
[0-9]{2> 

(?! 0000 ) 
[0-9]{4> 

$ 


# Проверка совпадения с началом строки. 

# Гарантировать отсутствие здесь совпадения с "000" или "666". 

# Соответствует цифре в диапазоне от 0 до 8. 

# Соответствует цифре точно два раза. 

# Соответствует литералу 

# Гарантировать отсутствие здесь совпадения с "00". 

# Соответствует цифре точно два раза. 

# Соответствует литералу 

# Гарантировать отсутствие здесь совпадения с "0000". 

# Соответствует цифре точно четыре раза. 

# Проверка совпадения с концом строки. 


Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, Лѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 


Помимо метасимволов <~> и <$>, выполняющих проверку совпадения с на¬ 
чалом и концом строки, это регулярное выражение можно разбить на 
три группы цифр, разделенных дефисом. Первая группа допускает сов¬ 
падение с любыми числами в диапазоне от ООО до 899, но предшествую¬ 
щая ей негативная опережающая проверка <(?! 0001666 )> препятствует 
совпадению с последовательностями цифр «ООО» и «666». Это ограниче¬ 
ние можно реализовать и без опережающей проверки, но она существен¬ 
но упрощает конструкцию регулярного выражения. Если вам потребу¬ 
ется исключить возможность совпадения с последовательностями «000» 
и «666» без применения опережающей проверки, тогда подвыражение 
<(?!000|666)[0-8][0-9]{2}> необходимо будет заменить подвыражением 
<(?:00[1-9]|0[1-9][0-9]|[1-578][0-9]{2}|6[0-57-9][0-9]|66[0-57-9] )>. В этом ме¬ 
нее удобочитаемом решении используется несколько сопоставлений 
с числовыми диапазонами, о которых рассказывается в рецепте 6.7. 

Вторая и третья группы просто совпадают с двух- и четырехзначными 
числами соответственно, но используют негативную опережающую про¬ 
верку, чтобы обеспечить невозможность совпадения со значениями, со¬ 
стоящими из одних нулей. 


Варианты 

Поиск номеров социального страхования в документах 

Если требуется отыскать номера социального страхования в большом 
документе или в длинной строке ввода, следует заменить якорные мета¬ 
символы <~> и <$> метасимволами границы слова. Механизмы регуляр¬ 
ных выражений интерпретируют все алфавитно-цифровые символы 
и символ подчеркивания как символы слова. 

\Ь(?! 0001666)[0-8][0-9]{2}-(?!00)[0-9]{2>-(?!0000)[0-9]{4}\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір!;, РСКЕ, Регі, РуѣЬоп, КиЪу 
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См. также 

На сайте Управления социального обеспечения действует служба про¬ 
верки номеров социального страхования (8осіа1 8есиггЬу ЫитЬег ѴегШ- 
саііоп 8егѵісе, 88КГѴ8) по адресу Ыір://іѵіѵіѵ.80сіаІ8есигИу.§оѵ/етрІоуег/ 
88 пѵ.кіт , которая предоставляет два способа убедиться, что имя и но¬ 
мер социального страхования соответствуют записи в Управлении со¬ 
циального обеспечения. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. В рецепте 2.16 рассказывается 
об опережающих и ретроспективных проверках. 

4.13. Проверка номеров І5ВЫ 

Задача 

Необходимо проверить корректность международного стандартного но¬ 
мера книги (Іпіегпаііопаі 8іаіісіаг<1 Воок ЫшпЪег, І8ВЫ), который мо¬ 
жет быть записан в старом (І8ВЫ-10) или в текущем (І8ВІ4-13) формате. 
Требуется обеспечить возможность разделения идентификатора І8ВИ 
и других частей номера символом дефиса или пробела. Все следующие 
примеры являются допустимыми номерами І8В№ 

• І8ВИ 978-0-596-52068-7 

• І8ВЫ-13: 978-0-596-52068-7 

• 978 0 596 52068 7 

• 9780596520687 

• І8ВЫ-10 0-596-52068-9 

• 0-596-52068-9. 

Решение 

Невозможно выполнить полную проверку номера І8ВЫ исключительно 
средствами регулярного выражения, потому что последняя цифра вы¬ 
числяется с применением алгоритма получения контрольной суммы. 

Регулярные выражения 

Три решения, которые приводятся в этом разделе, позволяют прове¬ 
рить соответствие одному из двух форматов - І8ВЫ 10 или І8ВЫ 13 - ли¬ 
бо соответствие им обоим. Каждое решение сначала приводится в про¬ 
стом виде, а затем в режиме свободного форматирования с коммента- 
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риями. Диалект ЗаѵаВсгірІ не поддерживает режим свободного форма¬ 
тирования, но при использовании других языков программирования 
вы можете выбрать то решение, которое лучше соответствует вашим 
желаниям. 

В решениях, оформленных в режиме свободного форматирования, сим¬ 
волы пробелов экранированы обратными слэшами. Диалект Заѵа тре¬ 
бует, чтобы пробелы экранировались даже в символьных классах. 

І8ВЫ-10: 

~(? : І5ВІ\І(? : -10)? : ?* )?(?-[0-9Х] {10}$ | (? = (?:[0-9]+[-*]){3})[-*0-9Х]{13}$)и 
[0-9]{1,5}[-*]?[0-9]+[-*]?[0-9]+[-«]?[0-9Х]$ 

Параметры: нет 

Диалекты: .ЫЕТ, За\а, ЗаѵаВсгірІ;, РСКЕ, Регі, Руііюп, КиЪу 

(? :ІЗВМ(? :-10)?:?\ )? # Необязательный идентификатор І8ВМ/ІЗВЫ- 10 

(?= # Предварительная проверка формата 

# (опережающая проверка): 

[0-9Х]{10}$ # Требуется 10 цифр/Х-ов (без разделителей). 

| # Или: 

(?=(?:[0-9]+[-\ ]){3}) # Требуется 3 разделителя 
[-\ 0-9Х]{13}$ # на 13 символов. 

) # Конец предварительной проверки формата. 

[0-9]{1,5}[-\ ]? # Идентификатор группы (от 1 до 5 цифр). 

[0-9]+[-\ ]?[0-9]+[-\ ]? # Идентификаторы издателя и книги. 

[0-9Х] # Цифра контрольной суммы. 

$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^аѵа, ХКе&Ехр, РСКЕ, Регі, РуѣЬоп, КиЬу 

І8ВЫ-13: 

~(?:18 В N(?:-13)?:?*)?(?=[0-9]{13}$|(?=(?:[0-9]+[-*]){4})[-«0-9]{17}$)и 
97[89][-*]?[0—9]{1,5}[-•]?[0-9]+[-•]?[0-9]+[-•]?[0-9]$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЗаѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЬу 


(?: ІЗВМ(? :-13)?:?\ )? # 

(?= # 

# 

[0-9]{13}$ # 

I # 


(?=(?:[0-9]+[-\ ]){4}) # 


[Л 0-9]{17}$ # 

) # 

97[89][-\ ]? # 

[ 0-9 ] {1 , 5 }[-\ ]? # 

[ 0 - 9 ]+[-\ ]?[ 0 - 9 ]+[—\ ]? # 
[0-9] # 

$ 


Необязательный идентификатор ІЗВМ/ІЗВЫ- 13. 
Предварительная проверка формата 
(опережающая проверка): 

Требуется 13 цифр (без разделителей). 

Или: 

Требуется 4 разделителя 
на 17 символов. 

Конец предварительной проверки формата. 
Префикс І8ВМ-13. 

Идентификатор группы (от 1 до 5 цифр). 
Идентификаторы издателя и книги. 

Цифра контрольной суммы. 
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Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуіЬоп, КиЬу 

І8ВЫ-10 или І8ВЫ-13: 

~(?: І8ВЫ(? :-1[03])?:?*)?(?=[0-9Х]{10}$|(?=(?:[0-9]+[-*]){3})—I 

[-*0-9Х]{13}$|97[89][0-9]{10}$|(?=(?:[0-9]+[-*]){4})[-»0-9]{17}$)и 

(?:97[89][-*]?)?[0-9]{1,5}[-*]?[0-9]+[-*]?[0-9]+[- # ]?[0-9Х]$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, Заѵа8сгірѣ, РСКЕ, Регі, РуЪЬоп, КиЬу 


(?: ІЗЕЩ? : -1 [03])?:?\ )? 
(?= 

[0-9Х]{10}$ 


(?=(?;[0-9]+[-\ ]){3}) 
[-\ 0-9Х]{13}$ 

97[89][0-9]{10}$ 

(?=(?:[0-9]+[-\ ]){4}) 
[-\ 0-9]{17}$ 

) 

(?:97[89][-\ ]?)? 

[0-9]{1,5}[-\ ]? 
[0-9]+[-\ ]?[0-9]+[-\ ]? 
[0-9Х] 

$ 


# Необязательный идентификатор ІЗЕШ/ІЗВМ-ІО/ІЗВМ-ІЗ 

# Проверка формата (опережающая проверка): 

# Требуется 10 цифр/Х-ов (без разделителей). 

# Или: 

# Требуется 3 разделителя 

# на 13 символов. 

# Или: 

# 978/979 плюс 10 цифр (всего 13). 

# Или: 

# Требуется 4 разделителя 

# на 17 символов. 

# Конец предварительной проверки формата. 

# Необязательный префикс ІЗВИ-ІЗ. 

# Идентификатор группы (от 1 до 5 цифр). 

# Идентификаторы издателя и книги. 

# Цифра контрольной суммы. 


Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуѣЬоп, КиЬу 


Пример для .ІаѵаБсгірі с проверкой контрольной суммы 

ѵаг зиб^есі: = боситепі:.де1:Е1етеп1:ВуІс1 ( "ізЬп”).ѵаіие; 

// регулярное выражение проверяет соответствие формату ІЗВМ-10 или ІЗВИ-ІЗ 

ѵаг гедех = /''(?:І5ВИ(?:-1[03])?:7 )?(?=[0-9Х]{10}$М 

(?=(?:[0-9]+[- ]){3})[- 0-9Х]{13}$ 1 97[89][0-9]{10}$М 

(?=(?:[0-9]+[- ]){4})[- 0-9]{17}$)(?:97[89][- ]?)?[0-9]{1,5}[- ]?Ц 

[0-9]+[- ]?[0-9]+[- ]?[0-9Х]$/; 

іГ (гедех. Тезі: (зиЬз есі:)) { 

// Удалить цифры, не имеющие отношение к ІЗВМ, и разбить номер на части, 
// представив их в виде массива 

ѵаг сНагз = зиб^есі:. гер1асе(/[- ] ГІ8ВМ(? : -1 [03])? :?/д, ’**’). зрііі: (""); 

// Удалить последнюю цифру ІЗВМ из массива ’сНагз' 

// и присвоить ее переменной ’іазі:’ 
ѵаг ІазТ = сНагз.рор(); 
ѵаг зшп = 0; 
ѵаг сіпеск, і; 
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іі" (сОагз. Іепдіііі == 9) { 

// Вычислить контрольную цифру І5ВМ-10 
сОагз. геѵегзе( ); 

■Гог (і = 0; і < сіта гз. Іепдіііт ; і++) { 

зит += (і + 2) * рагзеІпі:(сІіагз[і], 10); 

} 

сігеск = 11 - (зит % 11); 

ІТ (сИеск == 10) { 
сОеск = "X"; 

} еізе іТ ( сИеск ==11) { 
сНеск = "0"; 

} 

} еізе { 

// Вычислить контрольную цифру ІЗВМ-ІЗ 
Іог (і = 0; і < сбагз. Іепдіііт; і++) { 

зит += (і % 2 * 2 + 1) * рагзеІп1:(сНаг5[і], 10); 

} 

сОеск = 10 - (зит % 10); 
іі (сігеск == 10) { 
сИеск = "О"; 

} 

} 

і Т (сНеск == Іазі) { 

а1ег1:( "Корректный номер ІЗВЫ”); 

} еізе { 

а1ег1:( "Некорректная контрольная цифра номера ІЗВИ”); 

} 

} еізе { 

а1ег1:("Некорректный номер ІЗВЫ"); 

} 

Пример для РуіНоп с проверкой контрольной суммы 

ітрогі ге 
ітрогі: зуз 

зиЬзесІ: = зуз. а гдѵ[ 1 ] 

# регулярное выражение проверяет соответствие формату ІЗВЫ-10 или ІЗВЫ-ІЗ 

гедех = ге.сотрі1е("~(?:І8ВМ(?:-1[03])?:? )?(?=[0-9Х]{10}$М 

(? = (?:[0-9]+[- ]){3})[- 0-9Х]{13}$197[89][0-9]{10}$М 

(?=(?:[0-9]+[- ]){4})[- 0-9]{17}$)(?:97[89][- ]?)?[0-9]{1,5}[- ]?и 

[0-9]+[- ]?[0-9]+[- ]?[0-9Х]$”) 

іТ гедех. зеагсН(зиЬ]ес1:): 

# Удалить цифры, не имеющие отношение к ІЗВИ, и разбить номер на части, 

# представив их в виде массива 

сНагз = Іізі: (ге. зиЬ("[- ]|~І5ВМ(?:-1[03])?:?", зиб^есі:)) 

# Удалить последнюю цифру ІЗВИ из массива 'сНагз' 

# и присвоить ее переменной ’іазі’ 

Іазі = сНагз.рор() 
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іГ Іеп(сііагз) == 9: 

# Вычислить контрольную цифру ІЗВМ-10 

ѵаі = зит((х + 2) * іпі:(у) Гог х,у іп епитегаГе(геѵегзесКсІіагз))) 
сОеск = 11 - (ѵаі % 11) 
іГ сГіеск == 10: 

сОеск = "X” 
еІіГ сГеск == 11: 
сОеск = "0" 

еізе: 

# Вычислить контрольную цифру ІЗВМ-ІЗ 

ѵаі = зит((х % 2 * 2 + 1) * іпГ(у) Гог х,у іп епитегаГе(сОагз)) 
сОеск = 10 - (ѵаі % 10) 
іГ сОеск == 10: 
сОеск = "О” 

іГ (зіг(сОеск) == ІазГ): 

ргіпі "Корректный номер ІЗВІ\Г 
еізе: 

ргіпГ "Некорректная контрольная цифра номера ІЗВИ" 

еізе: 

ргіпі "Некорректный номер ІЗЕШ" 

Обсуждение 

І8ВЫ - это уникальный идентификатор продаваемых книг и подобных 
им продуктов. 10-значный формат І8ВЫ был опубликован как между¬ 
народный стандарт 180 2108 в 1970 году. Все номера І8ВЫ, которые при¬ 
сваиваются начиная с 1 января 2007 года, состоят из 13 цифр. 

Номера в форматах І8ВЫ-10 и І8ВЫ-13 делятся на четыре и на пять эле¬ 
ментов соответственно. Три элемента имеют переменную длину, а ос¬ 
тальные один или два элемента - фиксированную. Обычно все части от¬ 
деляются друг от друга дефисами или пробелами. Ниже приводится 
краткое описание каждого элемента: 

• 13-значные номера І8ВЫ начинаются с префикса 978 или 979. 

• Идентификатор группы определяет группу стран, говорящих на од¬ 
ном языке. Этот идентификатор может иметь длину от одной до пяти 
цифр. 

• Идентификатор издательства имеет переменную длину и при¬ 
сваивается национальным агентством І8ВЫ. 

• Идентификатор книги также имеет переменную длину и выбирает¬ 
ся издателем. 

• Заключительный символ называется контрольной цифрой и вычис¬ 
ляется с применением алгоритма получения контрольной суммы. 
В формате І8ВЫ-10 контрольная цифра может быть числом от 0 до 9 
или символом X (число 10 в римской системе записи чисел), тогда 
как в формате І8ВЫ-13 контрольная цифра может быть только чис¬ 
лом в диапазоне от 0 до 9. Так как для разных форматов І8ВЫ ис- 
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пользуются разные алгоритмы вычисления контрольной цифры, до¬ 
пустимые символы в них отличаются. 

Все три решения, представленные выше, содержат схожие части, поэто¬ 
му мы сосредоточимся на регулярном выражении из решения «І8ВЫ-10 
или І8ВЫ-13», разложенное на отдельные составляющие. Первое под¬ 
выражение <~(? : І8ВМ(? :-1 [03])? :?•)?> содержит три необязательных эле¬ 
мента, что позволяет ему совпадать с любым из семи фрагментов, сле¬ 
дующих ниже (в конце всех фрагментов, за исключением варианта 
с пустой строкой, имеется пробел): 

• ІЗВИ* 

• ТЗВИ-Ю» 

• ТЗВИ-ІЗ» 

• ІЗВИ> 

• ІЗВМ-10:» 

• ІЗВІМ-ІЗ:» 

• Пустая строка (префикс І8ВЫ отсутствует) 

Вслед за первым подвыражением Г(?:ІЗВМ(?:-1 [03] )?:?•)?> следует пози¬ 
тивная опережающая проверка, гарантирующая соблюдение одного из 
четырех ограничений (разделенных оператором выбора <|>), опреде¬ 
ляющих длину и допустимый набор символов для остальной части сов¬ 
падения, а также количество разделителей (ноль или три для І8ВЫ-10, 
ноль или четыре для І8ВЫ-13). Из-за наличия четырех вариантов вы¬ 
бора опережающая проверка получилась достаточно длинной. Вот как 
она выглядит: <(?=[0-9Х]{10}$|(?=(?:[0-9]+[-*]){3})[-*0-9Х]{13}$|97[89][0-9] 
{10}$|(?=(?:[0-9]+[-*]){4})[-*0-9]{17}$)>. Так как в ней целиком разобраться 
трудно, ниже приводится подробное описание каждого из вариантов по 
отдельности. Все четыре ограничения оканчиваются якорным мета¬ 
символом <$>, гарантирующим отсутствие последующего текста, не укла¬ 
дывающегося ни в один из шаблонов: 

<[0-9Х]{10}$> 

формат І8ВЫ-10 без разделителей (всего 10 символов) 

<(?=(?:[0-9]+[-]){3})[-0-9Х]{13}$> 

формат І8ВЫ-10 с тремя разделителями (всего 13 символов) 

<97[89][0-9]{10}$> 

формат І8ВЫ-13 без разделителей (всего 13 символов) 

<(? = (?:[0-9]+[-«]){4})[-®0-9]{17}$> 

формат І8ВЫ-13 с четырьмя разделителями (всего 17 символов) 

Два из этих вариантов (которые допускают наличие разделителей) 
включают собственные опережающие проверки, позволяющие гаран¬ 
тировать корректное число разделителей, прежде чем перейти к про¬ 
верке общей длины строки. 
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После того как позитивная опережающая проверка проверит длину 
и набор символов, можно произвести сопоставление отдельных элемен¬ 
тов номера І8ВЫ, не беспокоясь об их суммарной длине. Подвыраже¬ 
нию <(?:97[89][-*]?)?> соответствует префикс «978» или «979», обязатель¬ 
ный в формате І8ВМ-13. Совпадение с несохраняющей группой сделано 
необязательным, потому что она не обнаружит соответствия в испытуе¬ 
мой строке, имеющей формат І8ВЫ-10. Подвыражению <[0-9]{1,5}[-*]?> 
соответствуют от одной до пяти цифр идентификатора группы и необя¬ 
зательный разделитель, возможно следующий за ними. Подвыраже¬ 
нию <[0-9]+[-*]?[0-9]+[-*]?> соответствуют идентификаторы издательства 
и книги, имеющие переменную длину, и их необязательные разделите¬ 
ли. Наконец, подвыражению <[0-9Х]$> соответствует контрольная циф¬ 
ра в конце строки. 

Несмотря на то что регулярное выражение в состоянии убедиться, что 
в качестве последней цифры используется корректный символ (цифра 
или символ X), оно не сможет определить, представляет ли эта цифра 
корректную контрольную сумму І8ВЫ. Для обеспечения гарантии, что 
цифры номера ЕЖМ были введены без ошибок и не являются случайным 
набором цифр, используется один из двух алгоритмов вычисления конт¬ 
рольной суммы (в зависимости от того, в каком формате записан номер: 
І8ВЫ-10 или І8ВЫ-13). Реализации обоих алгоритмов показаны в приме¬ 
рах программного кода на языках Заѵа8сгір1 и РуЙюп. В следующих 
разделах описываются правила вычисления контрольных сумм, чтобы 
вы могли реализовать их в других языках программирования. 

Контрольная сумма І5ВІЧ-10 

Контрольная сумма для номеров в формате І8ВЫ-10 может принимать 
значения в диапазоне от 0 до 10 (значение 10 записывается римской 
цифрой X). Она вычисляется следующим образом: 

1. Каждая из первых 9 цифр умножается на число, убывающее в по¬ 
рядке от 10 до 2, а результаты умножения суммируются. 

2. Сумма делится на 11. 

3. Остаток деления (не частное) вычитается из числа 11. 

4. Если результат равен 11, в качестве контрольной суммы использует¬ 
ся число 0; для представления результата, равного 10, используется 
символ X. 

Ниже приводится пример вычисления контрольной цифры для номера 
0-596-52068-? в формате І8ВЫ-10: 

Шаг 1: 

зит = 10x0 + 9x5 + 8x9 + 7x6 + 6x5 + 5x2 + 4x0 + 3x6 + 2x8 
= 0 + 45 + 72 + 42 + 30 + 10 + 0+18+16 

= 233 
Шаг 2: 

233 -+ 11 = 21, остаток 2 
Шаг 3: 
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11 - 2 = 9 
Шаг 4: 

9 [подстановка иного значения не требуется] 

Была получена контрольная цифра 9, поэтому полный номер имеет 
вид: ІЗВИ 0-596-52068-9. 

Контрольная сумма І5ВІѴІ-13 

Контрольная сумма для номеров в формате І8ВЫ-13 может принимать 
значения в диапазоне от 0 до 9 и вычисляется похожим способом: 

1. По мере перемещения по номеру вправо каждая из первых 12 цифр 
умножается на 1 или на 3, а результаты умножения суммируются. 

2. Сумма делится на 10. 

3. Остаток деления (не частное) вычитается из числа 10. 

4. Если результат равен 10, в качестве контрольной суммы использует¬ 
ся число 0. 

Ниже приводится пример вычисления контрольной цифры для номера 
978-0-596-52068-? в формате І8ВЫ-13: 

Шаг 1: 

зип = 1x9 + 3x7 + 1x8 + 3x0 + 1x5 + 3x9 + 1x6 + 3x5 + 1x2 + 3x0 + 1x6 + 3x8 
= 9+21+ 8+ 0+ 5+27+ 6+15+ 2+ 0+ 6+24 
= 123 
Шаг 2: 

123 -г- 10 = 12, остаток 3 
Шаг 3: 

10 - 3 = 7 
Шаг 4: 

7 [подстановка иного значения не требуется] 

Была получена контрольная цифра 7, поэтому полный номер имеет вид: 

ІЗВМ 978-0-596-52068-7. 

Варианты 

Поиск номеров ІБІШ в документах 

В этой версии регулярного выражения «І8ВЫ-10 или І8ВЫ-13» якорные 
метасимволы заменены метасимволом границы слова, чтобы его можно 
было использовать для поиска отдельных номеров І8ВЫ в объемном 
тексте. Кроме того, в этой версии идентификатор «І8В№> сделан обяза¬ 
тельным по двум причинам. Во-первых, обязательное наличие иденти¬ 
фикатора позволит избежать ложных совпадений (без этого требования 
регулярное выражение может совпадать с 10- и 13-значными числами), 
а во-вторых, идентификатор І8ВЫ официально является обязательным 
при выводе на печать: 

\ЫЗВІ\І(? :-1[ 03 ])?:?*(?=[ 0-9Х]{10}$|(?=(?: [0-9]+[-* ]) {3}) и 
[-*0-9Х]{13}$ 197[89][0-9]{10}$ | (?=(?: [0-9]+[-*]){4})[-*0-9]{17}$)^-! 




366 


Глава 4. Проверка и форматирование 


(?:97[89][-*]?)?[0-9] {1,5}[-*]?[0-9]+[-*]?[0-9]+[-*]?[0-9Х ]\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуНюп, КиЬу 

Пропуск некорректных идентификаторов І5ВЫ 

Предыдущие регулярные выражения допускают совпадение с номером 
І8ВІЧ-10, которому предшествует идентификатор «І8ВЫ-13», и наоборот. 
В следующем регулярном выражении используется условная конструк¬ 
ция (рецепт 2.17), чтобы убедиться, что за идентификаторами «І8В1Ч-10» 
и «І8В1Ч-13» следует номер І8ВЫ соответствующего типа. Оно допускает 
совпадение с любым из форматов І8ВЫ-10 и І8ВМ-13, если тип не указан 
явно. В большинстве случаев это регулярное выражение будет чрезмер¬ 
но избыточным, потому что те же результаты можно получить, последо¬ 
вательно используя более простые регулярные выражения, отдельные 
для І8ВЫ-10 и І8ВК-13, приведенные выше. Оно представлено здесь ис¬ 
ключительно для демонстрации возможностей регулярных выражений: 

(?: ІЗЕШ(-1 (?:(0)|3))?:?\ )? 

(?( 1 ) 

(?( 2 ) 

# ІЗВГМО 

(?=[0-9Х]{10}$|(?=(?:[0-9]+[- ]){3})[- 0-9Х]{13}$) 

[0-9]{1,5}[- ]?[0-9]+[- ]?[0-9]+[- ]?[0-9Х] 

I 

# І5ВМ-13 

(?=[0-9]{13}$|(?=(?:[0-9]+[- ]){4})[- 0-9]{17}$) 

97[89][- ]?[0-9]{1,5}[- ]?[0-9]+[- ]?[0-9]+[- ]?[0-9] 

) 

I 

# Идентификатор не указан явно; допускается І8ВМ- 10 или І5ВМ-13 
(?=[0-9Х]{10}$|(?=(?:[0-9]+[- ]){3})[- 0-9Х]{13}$|97[89][0-9]{10}$| 

(?=(?:[0-9]+[- ]){4})[- 0-9]{17}$) 

(?:97[89][- ]?)?[0-9]{1,5}[- ]?[0-9]+[- ]?[0-9]+[- ]?[0-9Х] 

) 

$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, РСКЕ, Регі, РуЙюп 

См. также 

Самую последнюю версию руководства пользователя «І8ВЫ СГзег’в Ма- 
пиаі» вместе с инструментами проверки отдельных номеров І8ВЫ и пре¬ 
образования между форматами І8ВЫ-10 и І8ВЫ-13 можно найти на сай¬ 
те Международного агентства І8ВЫ НИр://іѵіѵіѵл8Ьп-іпіегпаііопа1.ог§. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп- 
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те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. В рецепте 2.16 рассказывается 
об опережающих и ретроспективных проверках. В рецепте 2.17 демон¬ 
стрируется применение условных конструкций. 

4.14. Проверка почтовых индексов 

Задача 

Необходимо выполнить проверку 2ІР-кода (почтовый индекс в США), 
который может записываться в двух форматах: как пятизначное число 
или как девятизначное число (называется 2ІР + 4). Регулярное выраже¬ 
ние должно совпадать со строками 12345 и 12345-6789 и не совпадать со 
строками 1234, 123456, 123456789 или 1234-56789. 

Решение 

Регулярное выражение 

~[0-9]{5}(?:-[0-9]{4})?$ 

Параметры: нет 

Диалекты: .КЕТ, Заѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуНіоп, КиЪу 

Пример для ѴВ.МЕТ 

ІГ Недех. ІзМаІісІп (зиЬ^ есІіЗІ:гіпд , "~[0-9]{5}(?: -[0-9]{4})?$") ТНеп 
Сопзоіе.ІлІгіТеІ_іпе( "Допустимый 2ІР-код” ) 

Еізе 

Сопзоіе. 1л1гі1:еІ_іпе("Недопустимый 7ІР-код") 

ЕпсІ II 

Помощь в реализации этого регулярного выражения на других языках 
программирования можно получить в рецепте 3.6. 

Обсуждение 

Ниже приводится регулярное выражение проверки 2ІР-кода, разло¬ 
женное на отдельные составляющие: 

# Проверка совпадения с началом строки. 

[0-9]{5} # Соответствует цифре точно пять раз. 

(?: # Группировка, но несохраняющая: 

# Соответствует литералу 

[0-9]{4} # Соответствует цифре точно четыре раза. 

) # Конец несохраняющей группы. 

? # Повторить предшествующую группу ноль или один раз. 

$ # Проверка совпадения с концом строки. 

Параметры: режим свободного форматирования 
Диалекты: .КЕТ, Заѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЪу 
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Это регулярное выражение весьма очевидное, поэтому нам нечего доба¬ 
вить к его описанию. Чтобы использовать его для поиска 2ІР-кодов 
внутри более длинной строки, следует заменить якорные метасимволы 
Г> и <$> метасимволом границы слова, что в результате даст выражение 

<\Ь[0-9] {5}(?:-[0-9]{4})?\Ь>. 


Существует один допустимый код 2ІР+4, который не совпадает 
с данным регулярным выражением: 10022-ЗНОЕ. Это единственный 
2ІР-код, включающий буквы. В 2007 он был специально присвоен 
обувному магазину 8акз на 50-й авеню в Нью-Йорке. Больше ника¬ 
ких подобных 2ІР-кодов почтовая служба США не создавала, по 
крайней мере, до сих пор. Почтовые отправления с индексом 10022 
все еще будут попадать в этот обувной магазин (и этот индекс будет 
проходить все проверки), поэтому вряд ли стоит изменять регуляр¬ 
ное выражение из-за этого единственного исключения. 


Для тех, кому приходится посылать почтовые отправления за пределы 
США, в рецепте 4.15 приводится решение для работы с почтовыми ин¬ 
дексами в Канаде, а в рецепте 4.16 - с почтовыми индексами в Велико¬ 
британии. 

В рецепте 4.17 демонстрируется поиск номеров почтовых ящиков в ад¬ 
ресах на случай, если вам потребуется обрабатывать эти номера отдель¬ 
но от обычных адресов с названиями улиц. 

Найти город по 2ІР-коду, определить 2ІР-коды для города и штата или 
адреса можно на сайте кир8://ипѵіѵ.и8р8.сот/гір4/. Но в действительно¬ 
сти 2ІР-коды определяют маршруты доставки, а не конкретные геогра¬ 
фические точки, поэтому существует множество необычных ситуаций, 
когда 2ІР-коды пересекают границы штатов или соответствуют воен¬ 
ным кораблям, отдельным зданиям крупных компаний или почтовым 
ящикам. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных клас¬ 
сах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецепте 2.9 
рассказывается о группировке. В рецепте 2.12 объясняется, как органи¬ 
зовать сопоставление с повторяющимися комбинациями символов. 

4.15. Проверка почтовых индексов, 
используемых в Канаде 

Задача 

Необходимо проверить, является ли строка почтовым индексом, ис¬ 
пользуемым в Канаде. 








См. также 
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Решение 

-(?!. *[0РІ0СШ])[А-ѴХѴ][0-9][А-2]«?[0-9][А-2][0-9]$ 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, Лѵабсгірі, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Негативная опережающая проверка, находящаяся в начале этого регу¬ 
лярного выражения, предотвращает появление в испытуемой строке 
символов Б, Г, I, О, <3 или И. Символьный класс <[А-ѴХУ ]>, следующий 
далее, исключает возможность появления символа АѴ или 2 в начале ин¬ 
декса. Кроме этих двух исключений, в канадских почтовых индексах 
просто используется чередующаяся последовательность из шести алфа¬ 
витных и цифровых символов с пробелом в середине. Например, регу¬ 
лярное выражение будет совпадать с последовательностью К1А 0В1 , кото¬ 
рая является почтовым индексом центрального почтового отделения 
города Оттава, Канада. 

См. также 

В рецепте 4.14 описывается решение задачи проверки почтовых индек¬ 
сов США, а в рецепте 4.16 - почтовых индексов Великобритании. 

В рецепте 4.17 демонстрируется поиск номеров почтовых ящиков в ад¬ 
ресах на случай, если вам потребуется обрабатывать эти номера отдель¬ 
но от обычных адресов с названиями улиц. 

Почтовая служба Канады предоставляет веб-страницу для определения 
почтового индекса по адресу кіір://іѵіѵіѵ.сапасіаро8і.са/сроіооІ8/арр8/{рс/ 
рег 80 ігаІ/ііпсІВуСііу. 

Приемы, использовавшиеся в регулярных выражениях в этом рецеп¬ 
те, обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.4 говорится, что точке соответствуют любые сим¬ 
волы. В рецепте 2.5 обсуждаются якорные метасимволы. В рецепте 2.12 
объясняется, как организовать сопоставление с повторяющимися ком¬ 
бинациями символов. В рецепте 2.16 рассказывается об опережающих 
и ретроспективных проверках. 

4.16. Проверка почтовых индексов, 
используемых в Великобритании 

Задача 

Необходимо написать регулярное выражение, которое будет совпадать 
с почтовым индексом, используемым в Великобритании. 
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Решение 

~[А-2]{1 ,2}[0-9В][0-9А-2]?*[0-9][АЕШ-НЛ_МР-иМ-2]{2}$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЛѵаЗсгірѣ, РСКЕ, Регі, РуѣЬоп, КиЬу 

Обсуждение 

Почтовые индексы в Великобритании могут содержать от пяти до семи 
алфавитно-цифровых символов, разделенных пробелом. Правила, опре¬ 
деляющие, какие символы и в каких позициях могут появляться, от¬ 
личаются большой сложностью и имеют множество исключений. Дан¬ 
ное регулярное выражение реализует основные из этих правил. 

Для тех, кому требуется регулярное выражение, реализующее все пра¬ 
вила и учитывающее все исключения ценой потери удобочитаемости, 
оно приводится ниже: 

"(?:(?: [А-РР-1МУ2][0-9]{1,2} | [А-РЯ-ІІ1/\ІУ2][А-НК-У][0-9]{1 , 2}<Л 
| [А-РВ-^1л/У2][0-9][А-Н^КЗ™] | [А-РВ-У\л/У2][А-НК-У][0-9]и 
[АВЕНММРРѴ-У] ) *[0-9][АВ0-НЛМР-ІІІлІ-2] {2} 101Р 0АА)$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ^ѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 

См. также 

Британский стандарт В87666 по адресу Мір://іпІегіт.саЫпеіоНісе.ёоѵ. 
ик/§оѵіаІк/8с1гета88Іап(Іаг(І8/е-8і{/(Іаіа8іап(Іагд,8/а(Ід,ге88/ро8ісо(Іе. 
азрх , где описываются правила составления почтовых индексов. 

На веб-сайте Королевской почты кЫр://и)іѵіѵ.гоуаІтаі1.сот/ро8ісо(іе-{іп- 
йег предоставляется возможность определения почтового индекса по 
адресу. 

В рецептах 4.14 и 4.15 описывается решение задач проверки почтовых 
индексов США и Канады. 

В рецепте 4.17 демонстрируется поиск номеров почтовых ящиков в ад¬ 
ресах. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 
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4.17. Поиск адресов, содержащих 
номер почтового ящика 

Задача 

Необходимо отыскать адреса, содержащие номер почтового ящика, 
и предупредить пользователя о том, что информация о доставке долж¬ 
на содержать адрес улицы. 

Решение 

Регулярное выражение 

"(?:РозТ(?:а1)?»(? :0ТТісе»)? |Р[.«]?0\.?*)?Вох\Ь 

Параметры: нечувствительность к регистру, символам " и $ соответ- 
ствуют границы строк 

Диалекты: .ИЕТ, Лѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуНіоп, КиЬу 


Пример для С# 

Ведех гедехОЬ] = п еѵі Ведех( 

@” л (?:РозИ(?: аі)? (?:0Шсе )?|Р[. ]?0\.? )?Вох\Ь", 

ВедехОрІіопз.ІдпогеСазе | ВедехОрІіопз.МиШІіпе 

); 

іГ (гедехОЬ]. ІзМаІісІі(зиЬ^есІЗІігіпд) { 

Сопзоіе.\л/гі1:е1іпе("Строка не выглядит как адрес улицы"); 

} еізе { 

Сопзоіе.Мгі*еІ_іпе("Можно отправлять"); 

} 

Помощь в применении этого регулярного выражения на других языках 
программирования можно получить в рецепте 3.5. В рецепте 3.4 демон¬ 
стрируется, как устанавливать параметры регулярных выражений, 
упомянутые здесь. 


Обсуждение 

Следующее объяснение записано в режиме свободного форматирова¬ 
ния, поэтому каждый значимый символ пробела в регулярном выраже¬ 
нии экранирован символом обратного слэша: 


(?: 

Розі (?:а1)?\ 
(?:0тсе\ )? 

Р[Д ]? 

о\.?\ 


# Проверка совпадения с началом строки. 

# Группировка, но несохраняющая... 

# Соответствует тексту "Роз! " или "Розіаі ". 

# Необязательное соответствие тексту "ОГГісе ". 

# Или: 

# Соответствует "Р" и, возможно, запятой или пробелу. 

# Соответствует "О" и, возможно, точке и пробелу. 
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)? # Сделать совпадение с группой необязательным. 

Вох # Соответствует тексту "Вох". 

\Ь # Проверить совпадение с границей слова. 

Параметры: нечувствительность к регистру, символам Л и $ соответ¬ 
ствуют границы строк, режим свободного форматирования 
Диалекты: .ЫЕТ, Заѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 


Регулярному выражению соответствуют все примеры строк, следую¬ 
щие ниже, если они находятся в начале строки: 



Несмотря на все предпринятые меры предосторожности, в реальной 
жизни можно столкнуться с ситуацией, когда почтовое отправление 
доставляется не по тому адресу или когда при указанном верном адресе 
отправление возвращается обратно, потому что многие люди достаточ¬ 
но вольно трактуют адреса. 

Чтобы уменьшить этот риск, лучше заранее предупредить, что начи¬ 
нать адрес с указания почтового ящика недопустимо. Если будет полу¬ 
чено совпадение с этим регулярным выражением, можно предупредить 
пользователя, что был введен номер почтового ящика, но не было ука¬ 
зано, как до него добраться. 


См. также 

В рецептах 4.14, 4.15 и 4.16 описывается решение задач проверки поч¬ 
товых индексов США, Канады и Великобритании соответственно. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. 





4.18. Преобразование из формата «имя фамилия» в формат «фамилия, имя» 
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4.18. Преобразование из формата 

«имя фамилия» в формат «фамилия, имя» 

Задача 

Требуется преобразовать имена людей из формата «имя фамилия» в фор¬ 
мат «фамилия, имя» для составления списка, отсортированного по фа¬ 
милиям в алфавитном порядке. При этом необходимо принять во вни¬ 
мание другие элементы, составляющие полное имя, например преобра¬ 
зовать полные имена из формата «имя отчество приставка фамилия до¬ 
полнение» в формат «фамилия, имя отчество приставка дополнение». 

Решение 

К сожалению, с помощью регулярных выражений невозможно произ¬ 
вести надежный парсинг имен. Регулярные выражения задают жест¬ 
кие условия совпадения, тогда как имена людей могут быть настолько 
необычными, что даже человек может понимать их неправильно. Для 
определения структуры имен или способов сортировки в алфавитном 
порядке часто требуется принимать во внимание национальные тради¬ 
ции и даже личные предпочтения. Однако если есть возможность сде¬ 
лать определенные предположения относительно обрабатываемых дан¬ 
ных и свести количество ошибок до приемлемого уровня, регулярные 
выражения помогут найти быстрое решение. 

При составлении следующего регулярного выражения мы не пытались 
реализовать обработку крайних случаев и преднамеренно сохранили 
его простым. 

Регулярное выражение 

~(.+?МГ\з, ]+)(,?-(?: [из]г\. ? |ІІІ? IIV) )?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуіЬоп, КиЬу 

Замещающий текст 

$2, 41$3 

Диалекты замещающего текста: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, Регі, РНР 

\2,Л1\3 

Диалекты замещающего текста: РуѣЬоп, КиЬу 
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Помощь в применении этого регулярного выражения для поиска и за¬ 
мены в программах на других языках программирования можно полу¬ 
чить в рецепте 3.15. В рецепте 3.4 демонстрируется, как устанавливать 
параметры регулярных выражений, включая модификатор «нечувст¬ 
вительности к регистру символов». 


Обсуждение 

Для начала рассмотрим это регулярное выражение по частям. Коммен¬ 
тарии, поясняющие, какие части имени соответствуют тем или иным 
сегментам регулярного выражения, будут даны ниже. Так как здесь ре¬ 
гулярное выражение записано в режиме свободного форматирования, 
литералы пробелов экранированы символами обратного слэша: 


( 


) 

\ 

( 


) 

( 


)? 

$ 


+9 


Г\з,]+ 


,?\ 

(?: 

Ы3]г\. 


III? 


IV 


# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 


Проверка совпадения с началом строки. 

Сохранение совпадения для обратной ссылки 1: 
Соответствует одному или более символам, 
минимальное число раз. 

Конец сохраняющей группы. 

Соответствует литералу пробела. 

Сохранение совпадения для обратной ссылки 2: 
Соответствует одному или более непробельным символам 
или запятым. 

Конец сохраняющей группы. 

Сохранение совпадения для обратной ссылки 3: 
Соответствует ", " или ” ". 

Группировка, но несохраняющая: 

Соответствует ”3г", "Зг.", "Зг” или "5г.". 

Или: 

Соответствует "II" или "III". 

Или: 

Соответствует "IV". 

Конец несохраняющей группы. 

Сделать совпадение с группой необязательным. 

Проверка совпадения с концом строки. 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 


Это регулярное выражение реализовано с учетом следующих предполо¬ 
жений об испытуемых данных: 

• Испытуемая строка содержит, по меньшей мере, имя и фамилию 
(остальные части полного имени считаются необязательными). 

• Имя записано перед фамилией (у некоторых народов принят обрат¬ 
ный порядок следования). 

• Дополнение к имени, если оно присутствует, имеет одно из следую¬ 
щих значений: «Зг», «Зг.», «8г», «8г.», «II», «III» или «IV» с необяза¬ 
тельной предшествующей запятой. 
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В этом регулярном выражении не решены некоторые проблемы, кото¬ 
рые стоит рассмотреть: 

• Регулярное выражение не в состоянии определять составные фами¬ 
лии, в которых не используется символ дефиса. Например, полное 

имяЗасІіа Вагоп Соііеп будет преобразовано в Соілеп , Засііа Вагоп, тогда 
как правильное представление Вагоп Соііеп, Засііа. 

• Оно не сохраняет приставки перед фамилией, хотя иногда этого тре¬ 
буют национальные традиции или личные предпочтения (напри¬ 
мер, правильное представление имени «Сйагіез сіе Оаиііе» (Шарль де 
Голль) имеет вид «сіе Оаиііе, СЬагІез» согласно 16-му изданию «СЫ- 
са^о Мапиаі о і 8іу1е», который не совпадает с представлением в био¬ 
графическом словаре Мерриам-Вебстер (МеггіатЛѴеЪзІег’з Віо^га- 
рЬісаІ Бісі;іопагу)). 

• Поскольку якорные метасимволы <"> и <$> привязывают совпадение 
к началу и концу строки, никаких замещений не может быть выпол¬ 
нено, если весь испытуемый текст не соответствует шаблону. Следо¬ 
вательно, если совпадение не будет обнаружено (например, когда ис¬ 
пытуемый текст содержит одно только имя), имя останется без изме¬ 
нений. 

Что касается работы регулярного выражения, оно делит полное имя на 
части, используя три сохраняющие группы. Затем с помощью обрат¬ 
ных ссылок в замещающем тексте эти части собираются в требуемом 
порядке. В первой сохраняющей группе используется максимально 
гибкий шаблон <.+?> для извлечения имени вместе с любым количест¬ 
вом вторых имен и приставок к фамилии, таких как немецкое «ѵоп» 
или французское «йе». Эти части полного имени рассматриваются как 
единое целое, поскольку они последовательно перечисляются в строке 
результата. Кроме того, объединение первого и второго имен помогает 
избежать ошибок, потому что регулярное выражение не в состоянии от¬ 
личать составные имена, такие как «Магу Ьои» или «Ыогта йеапе», от 
имени, за которым следует второе имя. Даже люди не всегда в состоя¬ 
нии визуально отличать их. 

Подвыражению <[~\з.] + > во второй сохраняющей группе соответствует 
фамилия. Гибкость этого символьного класса, подобно точке в первой 
сохраняющей группе, позволяет ему совпадать с любыми акцентиро¬ 
ванными и любыми другими символами, не входящими в набор Ьаііп. 
Третьей сохраняющей группе соответствует необязательное дополне¬ 
ние, такое как «йг.» или «III», из предопределенного списка допусти¬ 
мых значений. Дополнение обрабатывается отдельно от фамилии, пото¬ 
му что оно должно находиться в конце преобразованной строки с пол¬ 
ным именем. 

Вернемся на мгновение к первой сохраняющей группе. Почему за точ¬ 
кой в первой сохраняющей группе следует минимальный квантифика¬ 
тор <+?>, тогда как за символьным классом во второй сохраняющей груп¬ 
пе следует максимальный квантификатор <+>? Если бы первая группа 
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(которая обрабатывает имя переменной длины и потому должна про¬ 
двинуться по строке с полным именем как можно дальше) использова¬ 
ла максимальный квантификатор, то третья сохраняющая группа (ко¬ 
торой соответствует дополнение) вообще не получила бы возможность 
участвовать в сопоставлении. Точка из первой группы могла бы сов¬ 
пасть со всеми символами до самого конца строки, а поскольку третья 
группа является необязательной, механизм регулярных выражений 
выполнял бы возврат только для того, чтобы обеспечить совпадение со 
второй группой, после чего объявил бы об успехе. Вторая группа может 
использовать максимальный квантификатор, потому что она содержит 
более ограниченный символьный класс, позволяющий группе совпа¬ 
дать только с одним элементом имени. 

В табл. 4.2 приводятся некоторые примеры форматирования имен с по¬ 
мощью данного регулярного выражения и строки замещающего текста. 

Таблица 4.2. Форматированные имена 


Оригинал 

Результат 

КоЬегІ Болѵпеу, <Іг. 

Бо\ѵпеу, КоЬегІ, «Іг. 

«ІоЬп Г. Кеппебу 

Кеппесіу, Л>Ьп Г. 

Зсагіеіі О’Нага 

О’Нага, Зсагіеіі 

Рерё Ье Релѵ 

Релѵ, Рерё Ъе 

«І.К.К. Тоікіеп 

Тоікіеп, «І.К.К. 

СаіЬегіпе ЯеІа-іГопез 

2е1а-<Іопе5, СаіЬегіпе 


Варианты 

Список приставок к фамилии в начале полного имени 

Добавив небольшой фрагмент, как показано в следующем регулярном 
выражении, можно обеспечить вывод перед фамилией приставок к фа¬ 
милии из предопределенного списка. Конкретно это регулярное выра¬ 
жение распознает следующие значения: «сіе», «сіи», «Іа», «1е», «81», «81.», 
«81е», «81е.», «ѵап» и «ѵоп». Допускаются любые комбинации из этих 
значений (например, «сіе Іа»): 

"(•+?)*((?:(? :с![еи] 11[ае] |31:е?\. ? | ѵ[ао]п)*)*[Лз, ]+М 
(»?*(?: Ы3]г\. ? | III? | IV) )?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

$2,*$1$3 

Диалекты замещающего текста: .ЫЕТ, ^ѵа, ^ѵа8сгір1, Регі, РНР 

\2, Л1\з 

Диалекты замещающего текста: РуІЬоп, КиЪу 
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См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о символь¬ 
ных классах. В рецепте 2.4 говорится, что точке соответствуют любые 
символы. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. В рецеп¬ 
те 2.13 объясняется, как воздействуют на механизм возвратов макси¬ 
мальные и минимальные квантификаторы. В рецепте 2.21 демонстриру¬ 
ется, как вставлять текст, совпавший с сохраняющей группой, в текст 
замены. 

4.19. Проверка сложности пароля 

Задача 

Требуется проверить пароль, выбранный пользователем вашего сайта, 
на соответствие минимальным требованиям к сложности, принятым 
в вашей организации. 

Решение 

Следующие регулярные выражения проверяют множество отдельных 
условий, которые могут компоноваться по мере необходимости для про¬ 
верки соответствия принятым требованиям. В конце этого раздела при¬ 
водится несколько примеров программного кода на языке ЛѵаЗсгірІ, 
демонстрирующих приемы встраивания описываемых здесь регуляр¬ 
ных выражений в процедуру проверки сложности пароля. 

Длина от 8 до 32 символов 

-.{8,32}$ 

Параметры: точке соответствуют границы строк (режим «символам Л 
и $ соответствуют границы строк» должен быть выключен) 
Диалекты: .ЫЕТ, Заѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЪу 

В стандартном диалекте ЗаѵаЗсгірі; отсутствует режим «символам " и $ 
соответствуют границы строк». Используйте в Заѵа8сгір1 <[\з\3]> вме¬ 
сто точки, чтобы гарантировать корректную работу регулярного выра¬ 
жения даже с необычными паролями, включающими символы разры¬ 
ва строк: 

~[\8\5]{8,32}$ 

Параметры: нет (режим «символам " и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: .ЫЕТ, Заѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 
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Только видимые символы А5СІІ и пробелы 

Если пароль соответствует следующему регулярному выражению, 
можно быть уверенными, что он включает только символы А-2, а- 2 , 0-9, 
пробелы и знаки препинания из таблицы символов А8СІІ. Это выраже¬ 
ние не допускает присутствия любых управляющих символов, симво¬ 
лов разрыва строк или символов, не входящих в набор А8СІІ: 

~[\х20-\х7Е]+$ 

Параметры: нет (режим «символам Л и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, Лѵа8сгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Если дополнительно потребуется исключить пробелы, используйте вы¬ 
ражение <~[\х21-\х7Е]+$>. 

Один или более алфавитных символов в верхнем регистре 

Только символы А8СІІ в верхнем регистре: 

[А-2] 

Параметры: нет (режим «нечувствительность к регистру символов» 
должен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі, РСКЕ, Регі, РуііЬоп, КиЬу 

Любые алфавитные символы Юникода в верхнем регистре: 

\р{Ьи} 

Параметры: нет (режим «нечувствительность к регистру символов» 
должен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, КиЬу 1.9 

Если потребуется проверить наличие хотя бы одного алфавитного сим¬ 
вола (необязательно в верхнем регистре), включите режим нечувстви¬ 
тельности к регистру или используйте <[А-2а-2]>. Для проверки симво¬ 
лов Юникода можно использовать категорию Юникода <\р{1_}>, которая 
соответствует любой букве из любого алфавита. 

Один или более алфавитных символов в нижнем регистре 

Только символы А8СІІ в нижнем регистре: 

[а- 2 ] 

Параметры: нет (режим «нечувствительность к регистру символов» 
должен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуІЬоп, КиЬу 

Любые алфавитные символы Юникода в нижнем регистре: 

\раі} 

Параметры: нет (режим «нечувствительность к регистру символов» 
должен быть выключен) 
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Диалекты: .МЕТ, ^ѵа, РСКЕ, Регі, КиЪу 1.9 

Одна или более цифр 

[0-9] 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

Один или более специальных символов 

Только пробелы и знаки препинания А8СІІ: 

[ *! "#$%& ■ ()*+Д- ■ /:: <=>?@[\\\Г_ ’ {I Г ] 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, РуіЬоп, КиЬу 

Любые символы, кроме букв и цифр А8СІІ: 

[~А-2а-20-9] 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, Заѵа8сгірі, РСКЕ, Регі, РуіЬоп, КиЬу 

Запрет появления трех и более идентичных 
символов, следующих подряд 

Следующее регулярное выражение предназначено для исключения па¬ 
ролей вида 111111. Оно должно применяться иначе, чем другие регуляр¬ 
ные выражения в этом рецепте. При обнаружении совпадения пароль 
должен быть признан не соответствующим условиям. Иными словами, 
регулярное выражение совпадает только со строками, содержащими 
три и более одинаковых символа, следующих подряд. 

(■)\1\1 

Параметры: точке соответствуют границы строк 
Диалекты: .МЕТ, Заѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

([\з\3])\1\1 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, Заѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 

Пример простого решения на іаѵаБсгірі 

Следующий программный код объединяет пять требований к паролям: 

• Длина от 8 до 32 символов 

• Один или более алфавитных символов в верхнем регистре 

• Один или более алфавитных символов в нижнем регистре 

• Одна или более цифр 

• Один или более специальных символов (знаков препинания А8СІІ 
или пробелов). 
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Гипсііоп ѵа1ісіаіе(ра53\л/огсі) { 

ѵаг тіпМахІ_епдіР = /~[\з\3]{8,32}$/, 
иррег = /[А-2]/, 

Іоѵу/ег = /[а- 2 ]/, 
пипЬег = /[0-9]/, 

зресіаі - /[ ! ”#$%&’()*+,\-./:; <=>?@[\\\] л _' {I}"]/; 

іГ (тіпМахІепдІіГі. Ііезі:(разз\л/огсі) && 
иррег.Ііезі;(раззѵѵ/огсі) && 

Ісме г. Ііезі: (раззѵѵо гсі) && 
питЬег.Іезі:(раззѵѵогсі) && 
зресіаі. іезі(разз\л/огсІ) 

) { 

геіигп ігие; 

} 

геіигп Гаізе; 

} 

Функция ѵаіісіаіе, представленная выше, возвращает ігие, если пере¬ 
данная ей строка соответствует предъявляемым требованиям. Иначе 
она возвращает Гаізе. 

Пример решения на .ІаѵаБсгірІ 
с подсчетом числа удовлетворяемых требований 

Следующий пример требует обязательного соблюдения требования 
«длина от 8 до 32 символов» и соблюдения не менее трех требований из 
четырех перечисленных: 

• Один или более алфавитных символов в верхнем регистре 

• Один или более алфавитных символов в нижнем регистре 

• Одна или более цифр 

• Один или более специальных символов (отличных от букв и цифр 
А8СІІ). 

ГипсГіоп ѵа1ісіа1:е( разз\л/о гсі ) { 

ѵаг тіпМахІ_епдіГі = /~[\з\3]{8,32}$/, 
иррег = /[А-2]/, 

Ісмег = /[а- 2 ]/, 
питЬег = /[0-9]/, 
зресіаі = /[~А-2а-20-9]/, 
соипі = 0; 

іГ (тіпМахІ_епдіЬ. Ііезі:(раззѵѵогсі)) { 

// Достаточно соблюдения трех правил из четырех 
іГ (иррег. ГезГ(раззѵѵогсІ)) соипГ++; 

ІГ (Іомег. іезі(раззѵ\/огсІ)) соипГ++; 
іГ (питЬег. іезі(разз\л/о гсі)) соипі++; 
іГ (зресіаі.іезі(раззмэгсі)) соипі++; 

} 

геіигп соипі >= 3; 

} 
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Как и прежде, эта версия функции ѵаІісіаРе возвращает Ргие, если пере¬ 
данная ей строка соответствует предъявляемым требованиям. Иначе 
она возвращает Раізе. 

Пример решения на .Іаѵа5сгір{ 
с определением оценки надежности пароля 

Этот заключительный пример является самым сложным из представ¬ 
ленных. Он присваивает положительное или отрицательное число оч¬ 
ков разным условиям и использует регулярные выражения, описанные 
выше, для вычисления общей оценки пароля. Функция гапкРаззмогб 
возвращает число в диапазоне от 0 до 4, соответствующее оценкам паро¬ 
ля: «Тоо 8ЬогР» (Слишком короткий), <ЛѴеак» (Ненадежный), «Мебішп» 
(Средний), «8ІГОП&» (Надежный) и «Ѵегу Зіхоп^» (Очень надежный): 

ѵаг гапк = { 

Т00_5Н0РТ: О, 

\л/ЕАК: 1, 

МЕйНІМ : 2, 

ЗТР0И0 : 3, 

ѴЕРУ_8ТР0М0 : 4 

}; 


Рипсііоп гапкРаззмогсКраззмогсІ) { 
ѵаг иррег = /[А -I]/, 

Іоѵѵег = /[а-г]/, 
питбег = /[0-9]/, 
зресіаі = /[~А-2а-20-9]/, 
тіпіепдіііп = 8, 
зсоге = 0; 

іР (раззмэгб.ІепдРИ < тіп1_епдрб) { 

геіигп гапк.Т00_ЗН0РТ; // Завершить оценку раньше 

} 

// Увеличить значение зсоге при соблюдении любого из следующих условий 
іР (иррег.РезР(раззѵ\/огсі)) зсоге++; 
іР (Іомег. РезР(разз\л/огсІ)) зсоге++; 
іР (пшпбег.РезР(раззѵѵогсІ)) зсоге++; 
іР (зресіаі.РезР(разз\л/огб)) зсоге++; 

// Уменьшить зсоге, если соблюдено менее трех условий 
іР (зсоге < 3) зсоге--; 

іР (раззѵюгсі. ІепдРб > тіпЕепдРР) { 

// Увеличить зсоге на 1 за каждые 2 символа сверх минимальной длины 
зсоге += МаРІі. Р1оог((раз5могб. ІепдРІі - тіпІ_епдРІ'і) / 2); 

} 

// Вернуть оценку, опираясь на вычисленное значение зсоге 
іР (зсоге < 3) геіигп гапк.МЕАК; // зсоге имеет значение 2 или ниже 
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іГ (зсоге < 4) геТигп гапк. МЕОШМ; // зсоге имеет значение 3 
іГ (зсоге < 6) геШгп гапк.ЗТРОИО; // зсоге имеет значение 4 или 5 
геТигп гапк. ѴЕВѴ_5ТЯ0М6; // зсоге имеет значение 6 или выше 

} 

// Проверка... 

ѵаг гезиІТ = гапкРаззмогсК "раззѵѵогсіі ”), 

ІаЬеІз = [’Тоо ЗГіогі:", ”\л/еак”, "Месііит”, "ЗТгопд", "Ѵегу Зігопд"]; 

а1егТ(1аЬе1з[гезиіі:]); // -> Меак (Ненадежный) 

Благодаря особенностям алгоритма оценки он одинаково хорошо мо¬ 
жет служить двум целям. Во-первых, его можно использовать, чтобы 
сообщать пользователю о качестве пароля прямо в процессе ввода. Во- 
вторых, с его помощью можно отвергать пароли с оценкой ниже требуе¬ 
мого уровня. Например, для отклонения паролей с оценками ниже 
«8 і;гоп 2» (Надежный) и «Ѵегу 81гоп&» (Очень надежный) можно исполь¬ 
зовать условие іР(гези1і: <= гапк.МЕОШМ). 

Обсуждение 

Пользователи часто склонны выбирать простые или легко запоминаю¬ 
щиеся пароли. Но легко запоминаемый пароль не всегда может доста¬ 
точно надежно защитить доступ к учетной записи и к коммерческой 
информации компании. Поэтому обычно бывает необходимо защитить 
пользователей от самих себя и вынудить их придумывать пароли, отве¬ 
чающие некоторым минимальным требованиям. Однако в разных ком¬ 
паниях и системах могут предъявляться разные требования, и именно 
поэтому в данный рецепт включен набор регулярных выражений, кото¬ 
рые могут служить исходными компонентами для реализации различ¬ 
ных комбинаций требований. 

Ограничение каждого регулярного выражения проверкой соответствия 
единственному требованию упрощает их реализацию. Как результат, 
все регулярные выражения, представленные выше, чрезвычайно про¬ 
сты. Ниже приводятся дополнительные замечания к каждому из них: 

Длина от 8 до 32 символов 

Чтобы установить иные ограничения минимальной и максимальной 
длины, следует изменить нижнюю и верхнюю границы в квантифи¬ 
каторе <{8,32}>. Если максимальную длину не требуется ограничи¬ 
вать, используйте квантификатор <{8,}> или удалите якорный мета¬ 
символ <$> и измените квантификатор на <{8}>. 

Все языки программирования, рассматриваемые в этой книге, под¬ 
держивают простые и эффективные способы определения длины 
строки. Однако применение регулярного выражения дает возмож¬ 
ность одновременно проверять минимальную и максимальную дли¬ 
ну и сводит его внедрение в реализацию требований к сложности па¬ 
роля к простому выбору из списка регулярных выражений. 
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Только видимые символы А8СІІ и пробелы 


Как отмечалось выше, данное регулярное выражение допускает 
присутствие в испытуемой строке только символов А -1, а- 2 , 0-9, про¬ 
бела и знаков препинания из таблицы символов А8СІІ. Если гово¬ 
рить более конкретно, к допустимым знакам препинания относятся: 
!, ", #, $, %, &, (, ), *, +, /, <, =, >, ?, @, [, \, ], ", _, ', {, |, }, ' и за- 

пятая. Иными словами, все знаки препинания, которые можно вве¬ 
сти с помощью клавиатуры со стандартной раскладкой 11.8. 


Ограничение паролей указанным набором символов может помочь 
избежать проблем с кодировками символов, но имейте в виду, что 
это также ограничивает потенциальную сложность паролей. 


Символы в верхнем регистре 

Для проверки наличия в пароле двух или более алфавитных симво¬ 
лов в верхнем регистре можно использовать регулярное выражение 
<[А-2].*[А-2]>. Трех или более - <[А-2].*[А-2].*[А-2]> или <(?:[А-2].*){3}>. 
Если допускается присутствие алфавитных символов Юникода 
в верхнем регистре, достаточно заменить <[А-2]> в предыдущих при¬ 
мерах на <\р{І_и}>. В ^ѵа8сгір1 необходимо заменить точки на <[\з\3]>. 


Символы в нижнем регистре 

Как и в регулярном выражении, проверяющем присутствие сим¬ 
волов в верхнем регистре, проверить наличие хотя бы двух алфа¬ 
витных символов в нижнем регистре можно с помощью выражения 
<[а-г].*[а- 2 ]>. Трех или более - <[а- 2 ].*[а- 2 ].*[а-г]> или <(?:[а-г].*){3}>. Ес¬ 
ли допускается присутствие алфавитных символов Юникода в ниж¬ 
нем регистре, достаточно заменить каждое вхождение <[а-г]> на <\р{1_1}>. 
В ^ѵа8сгірІ необходимо заменить точки на <[\з\3]>. 


Цифры 

Проверить наличие в пароле двух или более цифр можно с помощью 
выражения <[0-9].*[0-9]>, а трех или более - <[0-9].*[0-9].*[0-9]> или 
<(?:[0-9].*){3}>. В ^ѵа8сгірѣ необходимо заменить точки на <[\з\3]>. 

Мы не включили в регулярные выражения сопоставление с десятич¬ 
ными цифрами Юникода (<\р{МсІ}>), потому что в качестве цифр редко 
используются символы, отличные от символов 0-9 (хотя читатели, 
говорящие на арабском или хинди, могут с нами не согласиться!). 

Специальные символы 

Тот же подход, что применялся для проверки присутствия букв 
и цифр, можно использовать и для проверки присутствия специаль¬ 
ных символов. Например, с помощью регулярного выражения <[~А-2а- 
20-9].*[~А-2а-20-9]> можно потребовать присутствия в пароле не менее 
двух специальных символов. 

Имейте в виду, что действие символьного класса <[~А-2а-20-9]> отли¬ 
чается от действия сокращения <\1л/> (инвертированной версии сокра¬ 
щения <\ю, совпадающего с символом слова). Сокращение <\1л/> совпа- 




384 


Глава 4. Проверка и форматирование 


дает с более узким диапазоном символов, чем <[~А-2а-20-9]>, дополни¬ 
тельно исключая символ подчеркивания, чего в данном случае же¬ 
лательно избежать. В некоторых диалектах регулярных выражений 
сокращение <\\л/> также исключает любые буквы и десятичные циф¬ 
ры Юникода. 

Запрет появления трех и более идентичных символов , следующих под¬ 
ряд 

Это регулярное выражение обеспечивает совпадение с повторяющи¬ 
мися символами с помощью обратных ссылок. О том, как действуют 
обратные ссылки, рассказывается в рецепте 2.10. Если потребуется 
исключить любое число повторяющихся символов, используйте вы¬ 
ражение <(.)\1>. Чтобы разрешить появление до трех повторяющихся 
символов, но не более, используйте выражение <(.)\1\1\1> или <(. )\1{3}>. 

Помните, что данное регулярное выражение проверяет условие, об¬ 
ратное предъявляемому требованию, - оно не должно совпадать с ис¬ 
пытуемым текстом. Совпадение свидетельствует, что в тексте при¬ 
сутствуют повторяющиеся символы, следующие подряд. 

Примеры решений на іаѵаБсгірі 

В рецепте приводится три примера на ^ѵа8сгір1, в каждом из которых 
представленные регулярные выражения используются немного по-раз¬ 
ному. 

Первый пример требует соответствия всем условиям. Во втором примере 
успешной считается проверка, если пароль соответствует трем из четы¬ 
рех условий. Третий пример, озаглавленный «Пример решения на Лѵа- 
8сгір1 с определением оценки надежности пароля», является, пожалуй, 
самым интересным. В нем представлена функция гапкРаззѵюгсі, суть ко¬ 
торой точно соответствует ее названию - она оценивает надежность па¬ 
роля. С ее помощью можно сообщать пользователям оценки введенных 
ими паролей и тем самым поощрять выбор более надежных паролей. 

Алгоритм, реализованный в функции гапкРаззѵюгсІ, увеличивает и умень¬ 
шает внутреннюю оценку пароля исходя из соответствия множеству ус¬ 
ловий. Если длина пароля меньше указанного минимума (восемь сим¬ 
волов), функция немедленно возвращает управление с числовым экви¬ 
валентом оценки «Тоо 8Ьоіі» (Слишком короткий). Несоответствие па¬ 
роля как минимум трем требованиям снижает оценку на один пункт, 
но это снижение можно компенсировать увеличением длины пароля, 
так как каждые два дополнительных символа сверх минимума (восемь 
символов) увеличивают оценку на один пункт. 

Разумеется, исходный код можно изменять и улучшать, приводя его 
в соответствие с вашими требованиями. Однако и в текущем виде он 
достаточно хорош независимо от особенностей области его применения. 
Для оценки мы проверили с его помощью несколько сотен наиболее ти¬ 
пичных (и потому ненадежных) паролей, выбираемых пользователями. 
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Все они получили оценку «Тоо 8ЬогЬ» (Слишком короткий) или сЛТѴеак» 
(Ненадежный) в полном соответствии с нашими ожиданиями. 


Использование ^ѵа8сгірѣ для проверки паролей в веб-браузере мо¬ 
жет служить дополнительным удобством для пользователей, но не 
забудьте также реализовать подобную процедуру на сервере. Если 
этого не сделать, пользователи смогут обойти эту проверку, отклю¬ 
чив поддержку ^ѵа8сгірі в браузере или воспользовавшись собст¬ 
венными сценариями. 


Проверка нескольких требований в одном 
регулярном выражении 

До настоящего момента общая проверка пароля разбивалась на провер¬ 
ки отдельных требований, которые можно выполнить с помощью про¬ 
стых регулярных выражений. Обычно такое решение является луч¬ 
шим: регулярные выражения остаются более читаемыми и намного 
проще определить причину несоответствия пароля и вывести сообщение 
с ее описанием. Более того, такой подход может даже помочь вычислить 
оценку сложности пароля, как было показано выше. Однако встречают¬ 
ся ситуации, когда все эти преимущества неважны или когда регуляр¬ 
ное выражение - это единственное, что доступно. В любом случае, иметь 
единственное регулярное выражение, проверяющее соответствие паро¬ 
ля сразу нескольким требованиям, - вполне типичное желание, поэто¬ 
му далее мы посмотрим, как этого добиться. Мы будем проверять соот¬ 
ветствие следующим требованиям: 

• Длина от 8 до 32 символов 

• Один или более алфавитных символов в верхнем регистре 

• Один или более алфавитных символов в нижнем регистре 

• Одна или более цифр. 

Все эти требования проверяются следующим регулярным выражением: 

'*(?=. {8,32}$)(?=. *[А-2])(?=. *[а- 2 ])(?=. *[0-9]). * 

Параметры: точке соответствуют границы строк (режим «символам Л 
и $ соответствуют границы строк» должен быть выключен) 
Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РОКЕ, Регі, РуЦюп, КиЬу 

Это регулярное выражение можно использовать со стандартным диа¬ 
лектом ^ѵаЗсгірѣ (не поддерживающим режим «точке соответствуют 
границы строк»), если заменить каждую из пяти точек символьным 
классом <[\з\3]>. В противном случае выражение будет отвергать неко¬ 
торые вполне допустимые пароли, содержащие символы разрыва строк. 
Но в любом случае регулярное выражение не будет совпадать с недопус¬ 
тимыми паролями. 


і 


Варианты 
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Обратите внимание, что в этом регулярном выражении все правила по¬ 
мещены в отдельные опережающие проверки, находящиеся в начале вы¬ 
ражения. Так как опережающие проверки не поглощают символы при 
обнаружении совпадений (рецепт 2.16), каждая из них выполняет про¬ 
верку, начиная с начала испытуемой строки. Если опережающая про¬ 
верка находит совпадение, осуществляется переход к следующей опере¬ 
жающей проверке, которая начинает поиск совпадения с той же пози¬ 
ции в испытуемой строке. Если попытка сопоставления с какой-нибудь 
из опережающих проверок потерпит неудачу, сопоставление со всем ре¬ 
гулярным выражением будет признано неудачным. 

Первая опережающая проверка, <(?=. {8,32}$)>, убеждается, что пароль 
имеет длину от 8 до 32 символов. Обратите внимание на якорный мета¬ 
символ <$>, следующий за квантификатором <{8,32}>, - если убрать его, 
проверка будет соответствовать и паролям, имеющим длину более 32 сим¬ 
волов. Следующие опережающие проверки ищут по очереди: алфавит¬ 
ный символ в верхнем регистре, алфавитный символ в нижнем регистре 
и цифру. Так как каждая опережающая проверка начинает поиск с на¬ 
чала строки, во всех них используется подвыражение <. *> перед соответ¬ 
ствующими символьными классами. Это обеспечивает возможность по¬ 
явления любых символов перед искомым совпадением. 

Следуя описанному приему, в единственное регулярное выражение мож¬ 
но добавить любое количество опережающих проверок, если, конечно, 
обязательным условием является соблюдение всех требований. 

Конструкция < *> в самом конце данного регулярного выражения в дей¬ 
ствительности не требуется. Однако без нее регулярное выражение бу¬ 
дет возвращать совпадение нулевой длины в случае успеха. Завершаю¬ 
щая комбинация <. *> позволяет регулярному выражению включить сам 
пароль в совпадение. 


С тем же успехом можно было бы записать это регулярное выраже¬ 
ние как Г(?=.*[А-2])(?=.*[а-2])(?=.*[0-9]).{8,32}$>, где проверка длины 
перемещена в конец, после опережающих проверок. К сожалению, 
это регулярное выражение будет работать неправильно из-за ошиб¬ 
ки в Іпіегпеі Ехріогег 5.5-8. Эта ошибка была исправлена в новом 
механизме регулярных выражений, включенном в состав ІЕ9. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 демонстрируется, как организовать 
сопоставление с непечатаемыми символами. В рецепте 2.3 рассказывает¬ 
ся о символьных классах. В рецепте 2.4 говорится, что точке соответст¬ 
вуют любые символы. В рецепте 2.5 обсуждаются якорные метасимво¬ 
лы. В рецепте 2.7 рассказывается о сопоставлении с символами Юнико¬ 
да. В рецепте 2.9 рассказывается о группировке. В рецепте 2.10 обсужда¬ 
ются обратные ссылки. В рецепте 2.12 объясняется, как организовать 
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сопоставление с повторяющимися комбинациями символов. В рецеп¬ 
те 2.16 рассказывается об опережающих и ретроспективных проверках. 

4.20. Проверка номеров кредитных карт 

Задача 

Представьте, что вы получили задание реализовать форму заказа для 
компании, принимающей оплату кредитными картами. Так как за 
каждую попытку операции с кредитной картой, даже неудачную, взи¬ 
мается плата, вы решили задействовать регулярное выражение, чтобы 
заранее отсеивать недопустимые номера кредитных карт. 

Кроме того, это создаст дополнительные удобства для клиентов. Регу¬ 
лярное выражение в состоянии обнаруживать очевидные опечатки 
сразу, как только клиент завершит заполнение веб-формы. Обращение 
же к службе обработки кредитных карт легко может занять от 10 до 
30 секунд. 

Решение 

Чтобы упростить реализацию, это решение было разбито на две части. 
В первой части удаляются пробелы и дефисы, а во второй выполняется 
собственно проверка. 

Удаление пробелов и дефисов 

Необходимо извлечь номер кредитной карты, введенный клиентом, 
и сохранить его в переменной. Перед выполнением проверки следует 
отыскать и удалить пробелы и дефисы. Для этого все совпадения со сле¬ 
дующим регулярным выражением следует заменить пустым замещаю¬ 
щим текстом: 


[•-] 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, ЗаѵаВсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 
В рецепте 3.14 показано, как выполнить эту предварительную замену. 

Проверка номера 

После удаления пробелов и дефисов можно воспользоваться регуляр¬ 
ным выражением, следующим ниже, чтобы проверить введенный номер 
кредитной карты на соответствие формату любой из шести основных 
компаний, осуществляющих обслуживание кредитных карт. В нем ис¬ 
пользуются именованные сохранения, позволяющие определить назва¬ 
ние кредитной компании, услугами которой пользуется клиент: 

~(?: 

( ?<ѵіза>4[ 0-9]{12}(?:[0-9]{3})?) | 
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(7<тазТегсагсІ>5[1-5][0-9]{14}) | 

( ?<с1ізсоѵе г>6(? :01115[0-9]{2} )[0-9]{12}) | 

(?<атех>3[47][0-9]{13}) | 

(?<сІіпегз>3(? :0[0-5] | [68][0-9])[0-9]{11}) | 

(?<]СЬ>(7:2131|1800|35[0-9]{3>)[0-9]{11}) 

)$ 

Параметры: режим свободного форматирования 

Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

"(?: 

(? Р<ѵіза>4[ 0-9]{12}(?:[0-9]{3})?) | 

(?Р<таз1:егсагсІ>5[ 1-5][0-9]{14}) | 

(?Р<с1ізсоѵег>6(? : 01115[0-9] {2})[0-9] {12}) | 

(?Р<атех>3[47][0-9]{13}) | 

(?Р<с1іпегз>3(? :0[0-5] | [68] [0-9]) [0-9] {11}) | 

(?Р<ЗСЬ>(?:213111800135[0-9]{3})[0-9]{11}) 

)$ 

Параметры: режим свободного форматирования 
Диалекты: РСКЕ, Руііюп 


Диалекты Лѵа (в версиях с 4 по 6), Регі 5.8 и ниже и КиЬу 1.8 не поддер¬ 
живают именованное сохранение. Поэтому в этих диалектах необходимо 
использовать нумерованное сохранение. Группа 1 сохраняет номер кар¬ 
ты Ѵіза, группа 2 - МазІегСагсІ и так далее, вплоть до группы 6 - ЗСВ: 


(?: 


(4[0-9]{12}(?:[0-9]{3})?) 
(5[1-5][0-9]{14}) | 

(6(7:011|5[0-9]{2})[0-9]{12}) | 

(3[47][0-9]{13}) | 

(3(?:0[0-5]|[68][0-9])[0-9]{11}) | 

((?:2131|1800|35[0-9]{3})[0-9]{11}) # ХВ 

)$ 


# Ѵіза 

# МазіегСагсІ 

# Оізсоѵег 

# АМЕХ 

# Ріпегз СІиЬ 


Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 


Стандартный диалект ^ѵа8сгірі не поддерживает режим свободного 
форматирования. Удалив пробелы и комментарии, мы получим: 

Л (?:(4[0-9]{12}(?:[0-9]{3})7)|(5[1-5][0-9]{14}) 

(6(7:011|5[0-9]{2})[0-9]{12})|(3[47][0-9]{13})М 

(3(7:0[0-5]|[68][0-9])[0-9]{11})|((7:2131|1800|35[0-9]{3})[0-9]{11}))$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуіЬоп, КиЬу 


Если нет необходимости определять тип кредитной карты, можно убрать 
шесть сохраняющих групп, окружающих подвыражения для каждого 
типа карт, так как они служат только этой цели. 

Рецепт 3.6 поможет добавить это регулярное выражение в форму зака¬ 
за, чтобы реализовать проверку номера карты. Если для обработки раз- 
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ных типов карт используются разные службы или если необходимо со¬ 
хранить некоторую информацию для статистики, можно воспользовать¬ 
ся рецептом 3.9, чтобы узнать, какой именованной или нумерованной 
сохраняющей группе принадлежит совпадение. Это поможет узнать на¬ 
звание кредитной компании, услугами которой пользуется клиент. 

Пример веб-страницы со сценарием .ІаѵаБсгірі 

<ІпТт1> 

<ИеасІ> 

<ТіТ1е>СгебіТ СагсІ ТезТ</1:Ше> 

</ІпеасІ> 

<Ьобу> 

<Іі 1 >Проверка кредитной карты</Н1> 

<Тогт> 

<р>Пожалуйста, введите номер вашей кредитной карты:</р> 

<р><іприТ Туре="Тех1:” зі2е="20" пате="сагбпитЬег” 
опкеуир=" ѵаіісіаііеса гсІпитЬе г( іііііз . ѵа1ие)"х/р> 

<р іб="по1:ісе'’>(номер карты не был введен)</р> 

</Тогт> 

<5сгірТ> 

ТипсТіоп ѵаІібаТесагбпитЬег(сагбпиіпЬег) { 

// Удалить пробелы и дефисы 

сагбпитЬег = сагбпитЬег.гер1асе(/[ -]/д, ’’); 

// Проверить корректность номера карты 

// Регулярное выражение сохранит номер в одной из сохраняющих групп 
ѵаг таТсЬ = /"(?:(4[0-9]{12}(?:[0-9]{3})7)|(5[1-5][0-9]{14})М 
(6(7:01115[0-9]{2} )[0-9]{12}) | (3[47][0-9]{13}) | (3(? :0[0-5] | [68][0-9])^І 
[0-9]{11})|((?:2131| 1800135[ 0-9 ] {3}) [ 0-9 ] {11 }))$/. ехес (са гсІпитЬе г); 

ІТ (шаѣсМ ) { 

// Список типов карт в том же порядке, что и в регулярном выражении 
ѵаг Турез = ['Ѵіза', 'МазТегСагб', ’Оізсоѵег', 'Ашегісап Ехргезз', 

’Оіпегз СІиЬ’, *ЗСВ’]; 

// Отыскать совпавшую сохраняющую группу 

// Пропустить нулевой элемент в массиве совпадений (общее совпадение) 
Тог (ѵаг і = 1; і < таТсЬ. ІепдТЬ; і++) { 

ІТ (таісЬ[і]) { 

// Вывести тип карты для данной группы 

боситепТ.деТЕ1етепТВуІб('поіісе’). іппегНТМІ_ = Турез[і - 1]; 

Ьгеак; 

} 

> 

} еізе { 

боситепТ. деТЕ1етепТВуІб('поіісе'). іппегНТМІ_ = 

'(ошибка в номере карты)'; 

} 
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} 

</зсгір1:> 

</ЬосІу> 

</Шт1> 

Обсуждение 

Удаление пробелов и дефисов 

Цифры рельефного номера на самой кредитной карте обычно делятся 
на группы, по четыре цифры в каждой. Это упрощает чтение номера. 
Вполне естественно, что многие пытаются ввести номер карты в таком 
же виде, включая пробелы. 

Написать регулярное выражение, которое будет проверять номер кре¬ 
дитной карты, допуская возможность появления пробелов, дефисов 
и прочих разделителей, намного сложнее, чем регулярное выражение, 
которое допускает только появление цифр. Поэтому, чтобы не утруж¬ 
дать клиента, заставляя его повторно вводить номер без пробелов или 
дефисов, можно просто выполнить операцию поиска с заменой и уда¬ 
лить их, прежде чем приступать к проверке номера и выполнять его пе¬ 
редачу службе обработки кредитных карт. 

Регулярному выражению <[•-]> соответствует символ пробела или де¬ 
фиса. Замена всех совпадений с этим регулярным выражением пустым 
текстом обеспечит удаление всех пробелов и дефисов. 

4Г ч 

•л. Ѵй * 


зволит удалить все символы, не являющиеся цифрами. 






Номера кредитных карт могут состоять только из цифр. Поэтому 
вместо символьного класса <[•-]>, позволяющего удалить только про¬ 
белы и дефисы, можно воспользоваться метасимволом <\0>, что по- 


Проверка номера 

Каждая компания, обслуживающая кредитные карты, использует свой 
формат номера. Мы использовали это обстоятельство, чтобы не застав¬ 
лять клиента вводить название компании вместе с номером - название 
компании определяется по номеру. Ниже приводятся описания форма¬ 
тов для каждой компании: 

Ѵіза 

13 или 16 цифр, номер начинается с 4. 

МазіегСагд, 

16 цифр, номер начинается с чисел от 51 до 55. 

Ьізсоѵег 

16 цифр, номер начинается с 6011 или с 65. 

Атегісап Ехргезз 

15 цифр, номер начинается с 34 или 37. 



4.20. Проверка номеров кредитных карт 


391 


Оіпегз СІиЬ 

14 цифр, номер начинается с чисел от 300 до 305, 36 или 38. 
е/СВ 

15 цифр, номер начинается с чисел 2131 или 1800; или 16 цифр, номер 
начинается с 35. 

Если необходимо обеспечить прием кредитных карт только определен¬ 
ных типов, нежелательные типы можно удалить из регулярного выра¬ 
жения. При удалении ЛСВ не забудьте также удалить из регулярного 
выражения последний оператор <|>. Регулярное выражение, оканчи¬ 
вающееся последовательностью <||> или <|)>, будет интерпретировать 
пустые строки как допустимые номера кредитных карт. 

Например, чтобы обеспечить прием кредитных карт только компаний 
Ѵіза, МазІегСагсі и АМЕХ, можно воспользоваться следующим регу¬ 
лярным выражением: 

~(? ; 

4[0-9]{12}(?:[0-9]{3})7 | # Ѵіза 
5[ 1-5][0-9]{14} | # МазіегСагР 

3[47][0-9]{13} # АМЕХ 

)$ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЪу 

Альтернативное решение: 

*'(?:4[0-9]{12}(?:[0-9]{3})?|5[ 1-5][0-9]{14} |3[47][0-9]{13})$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЪу 

Если необходимо отыскать номера кредитных карт в тексте документа, 
якорные метасимволы следует заменить метасимволом <\Ь> границы 
слова. 

Внедрение решения в веб-страницу 

Пример в разделе «Пример веб-страницы со сценарием ^ѵа8сгір!» вы¬ 
ше демонстрирует, как можно было бы добавить эти два регулярных 
выражения в форму заказа. Для поля ввода номера кредитной карты 
определен обработчик события опкеуир, который вызывает функцию 
ѵа1іс!а1:есагс1питЬег( ). Эта функция извлекает номер кредитной карты из 
поля ввода, удаляет из него пробелы и дефисы и выполняет проверку 
с помощью регулярного выражения с нумерованными сохраняющими 
группами. Результат проверки отображается путем замещения содер¬ 
жимого последнего абзаца на странице. 

Если регулярное выражение не обнаружит совпадения, метод гедехр. 
ехес() вернет значение пиіі и на странице будет выведен текст (ошибка 
в номере карты). Если совпадение будет найдено, метод гедехр. ехес() вер¬ 
нет массив строк. Нулевой элемент этого массива хранит совпадение со 
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всем регулярным выражением. Элементы с 1 по 6 хранят фрагменты, 
совпавшие с соответствующими им сохраняющими группами. 

В нашем регулярном выражении присутствует шесть сохраняющих 
групп, разделенных операторами выбора. Это означает, что только одна 
группа будет участвовать в совпадении и сохранит номер кредитной 
карты. Остальные элементы массива будут содержать пустой текст (зна¬ 
чение ипсІеГіпесі или пустую строку в зависимости от используемого 
браузера). Функция проверяет шесть групп, одну за другой. Когда обна¬ 
руживается непустая группа, номер карты опознается и на странице 
выводится ее тип. 

Дополнительная проверка 
с применением алгоритма Луна 

Имеется возможность произвести дополнительную проверку номера 
кредитной карты, прежде чем приступать к обработке заказа. Послед¬ 
няя цифра в номере кредитной карты является контрольной суммой, 
вычисляемой в соответствии с алгоритмом Луна . Так как этот алго¬ 
ритм требует выполнения арифметических операций, его невозможно 
реализовать средствами регулярных выражений. 

Проверку с применением алгоритма Луна можно добавить в пример веб¬ 
страницы, который приводился в этом рецепте, вставив вызов функции 
1иГіп(сагс1питЬе г); перед инструкцией еізе в функции ѵа1ісІа1;есагСІпитЬег( ). 
В этом случае проверка с применением алгоритма Луна будет выпол¬ 
няться, только когда регулярное выражение будет обнаруживать сов¬ 
падение и после определения типа кредитной карты. При этом для ал¬ 
горитма Луна определять тип кредитной карты не требуется. Для всех 
кредитных карт используется один и тот же метод вычисления конт¬ 
рольной суммы. 

На языке ^ѵабсгірі; алгоритм Луна можно реализовать, как показано 
ниже: 

ГипсГіоп ІиИп (са гсІпигпЬе г) { 

// Создать массив с цифрами, составляющими номер кредитной карты 
ѵаг сіідіііз = сагсІпитЬег.зрііі:(’'); 

Гог (ѵаг і = 0; і < сІідіГз. ІепдГП; і++) { 
сІідіГз[і] = рагзеІпГ(с!іді1:з[і] ) 10); 

} 

// Выполнить расчет по алгоритму Луна для массива 
ѵаг зит = 0; 
ѵаг аІГ = Гаізе; 

Гог (ѵаг і = сіідіГз. ІепдГІі - 1; і >= 0; і--) { 

(аП) { 

с1ідіГ5[і] *= 2; 

ІГ (сІідіГз[і] > 9) { 
сіідіГз[і] -= 9; 

} 


} 
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зит += сІідіТз[і]; 
аІТ = !а1і; 

} 

// Сообщить о корректности номера карты 
і Г (зит % 10 == 0) { 

боситепі . деТЕІетепТВуІсК "поіісе" ). іппегНТМІ_ += 
проверка Луна пройдена’; 

} еізе { 

боситепТ .деТЕІетепТВуІсК "поіісе").іппегНТМІ += 
проверка Луна не пройдена’; 

} 

} 

Эта функция принимает строку с номером кредитной карты в виде аргу¬ 
мента. Номер кредитной карты может содержать только цифры. В на¬ 
шем примере функция ѵа1ісіаі:есагсіпитЬег() уже удалила пробелы и де¬ 
фисы и определила, что номер карты содержит допустимое число цифр. 

Сначала функция разбивает строку на массив символов, а затем выпол¬ 
няет обход массива, конвертируя символы в числа. Если этого не сде¬ 
лать, в результате в переменной зит окажется строка, собранная из 
цифр, а не сумма чисел. 

Фактический алгоритм работает с массивом и вычисляет контрольную 
сумму. Если остаток от деления контрольной суммы на число 10 равен 
нулю, номер карты считается верным, в противном случае номер содер¬ 
жит ошибку. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. 

4.21. Европейские регистрационные номера 
плательщиков НДС 

Задача 

Вам дано задание реализовать веб-форму заказа для компании, рабо¬ 
тающей в Евросоюзе. 

Европейские налоговые законы предусматривают следующее: когда 
компания, имеющая регистрационный номер плательщика НДС (ваш 
клиент) и размещающаяся в одной из стран Евросоюза, приобретает ка¬ 
кой-либо товар у поставщика (ваша компания), размещающегося в лю- 
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бой другой стране Евросоюза, поставщик не должен закладывать НДС 
(налог на добавленную стоимость) в стоимость товара. Если покупатель 
не имеет регистрационного номера плательщика НДС, поставщик дол¬ 
жен включить НДС в стоимость и перевести сумму НДС местной нало¬ 
говой службе. Поставщик обязан использовать регистрационный номер 
плательщика НДС покупателя как доказательство для налоговой служ¬ 
бы, что он не должен перечислять НДС. Это означает, что для поставщи¬ 
ка очень важно проверить регистрационный номер плательщика НДС 
покупателя, прежде чем выполнить сделку, не облагаемую налогом. 

Самой часто встречающейся причиной некорректности регистрацион¬ 
ных номеров являются обычные опечатки, допущенные клиентом. Что¬ 
бы сделать процесс оформления заказа более дружественным и быст¬ 
рым, необходимо использовать регулярное выражение и проверить ре¬ 
гистрационный номер, пока клиент заполняет форму заказа. Реализо¬ 
вать такую проверку можно на стороне клиента, в Заѵавсгірі;, или на 
стороне сервера с помощью сценария, принимающего форму заказа. Ес¬ 
ли номер не соответствует регулярному выражению, клиент сможет тут 
же исправить опечатку. 

Решение 

Чтобы упростить реализацию, это решение было разбито на две части. 
В первой части удаляются пробелы и дефисы, а во второй выполняется 
собственно проверка. 

Удаление пробелов и знаков пунктуации 

Необходимо извлечь регистрационный номер плательщика НДС, вве¬ 
денный клиентом, и сохранить его в переменной. Прежде чем выпол¬ 
нять проверку корректности номера, следует заменить пустыми стро¬ 
ками все совпадения со следующим регулярным выражением: 

[-■•] 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

В рецепте 3.14 показано, как выполнить эту предварительную замену. 
Мы предполагаем, что клиент не может вводить какие-либо знаки пунк¬ 
туации, за исключением дефисов, точек и пробелов. Любые другие недо¬ 
пустимые символы будут обнаруживаться при последующей проверке. 

Проверка номера 

После удаления пробелов и знаков пунктуации можно выполнить про¬ 
верку регистрационного номера для любой из 27 стран, входящих в Ев¬ 
росоюз, с помощью следующего регулярного выражения: 


~( 

(АТ)?У[0-9]{8> | 


# Австрия 
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(ВЕ)?0[0-9]{9} | 

# Бельгия 

(В6)?[0-9]{9,10} | 

# Болгария 

(СѴ)?[0-9]{8}1_ | 

# Кипр 

(С2)?[0-9]{8,10} | 

# Чешская республика 

(ОЕ)?[0-9]{9} | 

# Германия 

(0К)?[0-9]{8} | 

# Дания 

(ЕЕ)?[0-9]{9} | 

# Эстония 

(ЕЦеР)?[0-9]{9} | 

# Греция 

(Е5)?[0-9А-2][0-9]{7}[0-9А-2] | 

# Испания 

(РІ)?[0-9]{8} | 

# Финляндия 

(РР)?[0-9А-2]{2}[0-9]{9} | 

# Франция 

(0В)?([0-9]{9}([0-9]{3})?|[А-2]{2}[0-9]{3}) | # Великобритания 

( НІ) )?[0-9]{8> | 

# Венгрия 

(ІЕ)?[0-9]3[0-9]{5}1 | 

# Ирландия 

( ІТ)? [0-9]{ 11 } | 

# Италия 

аТ)?([0-9]{9}|[0-9]{12}) | 

# Литва 

(І_ІІ)?[0-9]{8} 1 

# Люксембург 

(ЕѴ)?[0-9]{11 } | 

# Латвия 

(МТ)?[0-9]{8} | 

# Мальта 

(М1_)?[0-9]{9}В[0-9]{2} | 

# Нидерланды 

(РЕ)?[0-9]{10} | 

# Польша 

(РТ)?[0-9]{9} | 

# Португалия 

(В0)?[0-9]{2,10} | 

# Румыния 

(5Е)?[0-9]{12} | 

# Швеция 

(ЗІ)?[0-9]{8} | 

# Словения 

(ЗК)?[0-9]{10} 

# Словакия 


)$ 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, Заѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

В регулярном выражении, приведенном выше, используется режим 
свободного форматирования, чтобы упростить его изменение в будущем. 
Время от времени к Евросоюзу присоединяются новые страны, и стра¬ 
ны-участницы меняют свои правила, касающиеся регистрационных 
номеров плательщиков НДС. К сожалению, в ^ѵа8сгірі не поддержи¬ 
вается режим свободного форматирования. Для этого языка програм¬ 
мирования все регулярное выражение следует поместить в одну строку: 

~((АТ)?1)[0-9]{8} | (ВЕ)?0[0-9]{9} | (ВО)?[0-9]{9,10} | (СУ)?[0-9]{8}1_|и 
(С2)?[0-9]{8,10}|(0Е)?[0-9]{9}|(0К)?[0-9]{8}|(ЕЕ)?[0-9]{9}М 
(ЕиеР)?[0-9]{9}|(ЕЗ)?[0-9А-2][0-9]{7}[0-9А-2]|(РІ)?[0-9]{8}М 
(РП)?[0-9А-2]{2}[0-9]{9}|(6В)?([0-9]{9}([0-9]{3})?|[А-2]{2}[0-9]{3})М 
(Ни)?[0-9]{8}|(ІЕ)?[0-9]5[0-9]{5}и(ІТ)?[0-9]{11}М 
(И)?([0-9]{9} |[0-9]{12}) | (Ш)?[0-9]{8} | ( ЬѴ)? [0-9]{11} | (МТ)?[0-9]{8} М 
(М1_)?[0-9] {9}В[0-9] {2} |(РІ_)?[0-9]{10}|(РТ)?[0-9]{9}|(Н0)?[0-9]{2,10}|и 
(5Е)?[0-9]{12} | (51)?[0-9]{8} | (8К)?[0-9]{10})$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЗаѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЪу 

Рецепт 3.6 поможет добавить это регулярное выражение в форму заказа. 
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Обсуждение 

Удаление пробелов и знаков пунктуации 

Чтобы упростить чтение регистрационных номеров плательщиков НДС, 
люди часто при вводе добавляют дополнительные знаки пунктуации, 
чтобы разбить их на группы цифр. Например, клиент из Германии мо¬ 
жет ввести свой номер 0Е123456789 как дЕ 123.456.789, 

Практически невозможно написать единственное регулярное выраже¬ 
ние, которому соответствуют любые регистрационные номера для лю¬ 
бой из 27 стран, введенные в любом формате. Поскольку знаки пунк¬ 
туации служат исключительно для повышения удобочитаемости, на¬ 
много проще будет сначала удалить их и только потом выполнить про¬ 
верку получившегося регистрационного номера. 

Регулярному выражению <[-.»]> соответствует дефис, точка или пробел. 
Операция замены всех совпадений с этим регулярным выражением 
пустой строкой удалит знаки пунктуации, часто используемые при вво¬ 
де регистрационных номеров плательщиков НДС. 

тМ -ц. 

в. ^ 


Проверка номера 

Оба регулярных выражения, проверяющие регистрационный номер, яв¬ 
ляются идентичными. Единственное отличие состоит в том, что в первом 
используется режим свободного форматирования, что делает его более 
удобочитаемым, и в нем присутствуют комментарии, указывающие на 
страны. Диалект ЗаѵаВсгірІ (если не используется библиотека ХКе&Ехр) 
не поддерживает режим свободного форматирования, тогда как другие 
диалекты предоставляют такую возможность. 

Чтобы обеспечить совпадение с регистрационным номером для любой 
из 27 стран Евросоюза, в регулярном выражении используется опера¬ 
тор выбора. Форматы номеров имеют вид, как показано в табл. 4.3. 

Строго говоря, двухбуквенные обозначения стран являются частью ре¬ 
гистрационного номера. Однако люди часто опускают их, так как на¬ 
звание страны уже указывается в счете. Регулярное выражение будет 
принимать регистрационные номера и без кода страны. Если необходи¬ 
мо, чтобы код страны вводился в обязательном порядке, следует убрать 
из регулярного выражения все знаки вопроса. В этом случае при выво¬ 
де сообщения об ошибке необходимо известить клиента, что код страны 
требуется указывать в обязательном порядке. 

Если предполагается принимать заказы только из определенных стран, 
можно убрать из регулярного выражения те страны, которые не разре- 


кС. 


а * 

_7кѵ 


Регистрационные номера состоят только из букв и цифр. Поэтому 
вместо выражения <[-.•]> для удаления любых недопустимых симво¬ 
лов можно использовать выражение <[~А-20-9]>. 
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шено выбрать в форме заказа. Удаляя альтернативы из регулярного вы¬ 
ражения, не забывайте удалять и операторы выбора <|>, отделяющие 
удаляемую альтернативу от предыдущей или последующей альтерна¬ 
тивы. Если этого не сделать, в регулярном выражении окажутся два 
оператора выбора, следующие друг за другом <||>. Последовательность 
< 11 > добавит в регулярное выражение альтернативу, которой соответст¬ 
вует пустая строка, сделав возможной ситуацию, когда форма заказа 
будет воспринимать пустой регистрационный номер, как корректный. 


Таблица 4.3. Форматы номеров плательщиков НДС стран Евросоюза 


Страна 

Формат номера плательщика НДС 

Австрия 

1 199999999 

Бельгия 

0999999999 

Болгария 

999999999 или 9999999999 

Кипр 

999999991, 

Чешская республика 

99999999, 999999999 или 9999999999 

Германия 

999999999 

Дания 

99999999 

Эстония 

999999999 

Греция 

999999999 

Испания 

Х9999999Х 

Финляндия 

99999999 

Франция 

ХХ999999999 

Великобритания 

999999999, 999999999999 или ХХ999 

Венгрия 

99999999 

Ирландия 

98999991, 

Италия 

99999999999 

Литва 

999999999 или 99999999999 

Люксембург 

99999999 

Латвия 

99999999999 

Мальта 

99999999 

Нидерланды 

999999999899 

Польша 

999999999 

Португалия 

999999999 

Румыния 

99, 999, 9999, 99999, 999999, 9999999, 99999999, 
999999999 или 9999999999 

Швеция 

99999999999 

Словения 

99999999 

Словакия 

999999999 
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Все 27 альтернатив сгруппированы в одну группу. Эта группа помещена 
между символом крышки и знаком доллара, которые привязывают сов¬ 
падение с регулярным выражением к началу и к концу испытуемой 
строки. Вследствие этого вся введенная строка будет проверяться как 
регистрационный номер. 

Если возникнет необходимость отыскивать регистрационные номера 
в тексте документа, якорные метасимволы следует заменить метасим¬ 
волом <\Ь> границы слова. 

Варианты 

Преимущество регулярного выражения, выполняющего проверку сразу 
для всех 27 стран, состоит в том, что в форму заказа достаточно будет до¬ 
бавить всего одно выражение. Можно было бы расширить форму заказа, 
используя 27 отдельных регулярных выражений. При этом сначала мож¬ 
но было бы определять страну, указанную в расчетном адресе, а затем вы¬ 
бирать регулярное выражение, соответствующее этой стране, из табл. 4.4. 


Таблица 4.4. Регулярные выражения , совпадающие с номерами 

плательщиков НДС стран Евросоюза 


Страна 

Регулярное выражение, совпадающее с номером 
плательщика НДС 

Австрия 

<-(АТ)?ІІ[0-9]{8}$> 

Бельгия 

<"(ВЕ)?0[0-9]{9}$> 

Болгария 

<‘(Ве)?[0-9]{9,10}$> 

Кипр 

<~(СѴ)?[0-9]{8}1_$> 

Чешская республика 

<"(С2)?[0-9]{8,10}$> 

Германия 

<~(0Е)?[0-9]{9}$> 

Дания 

<~(0К)?[0-9]{8}$> 

Эстония 

<"(ЕЕ)?[0-9]{9}$> 

Греция 

<"(ЕІ_|еЯ)?[0-9]{9}$> 

Испания 

<‘(ЕЗ)?[0-9А-2][0-9]{7}[0-9А-2]$> 

Финляндия 

<~(ЕІ)?[0-9]{8}$> 

Франция 

<~(ЕВ)?[0-9А-2]{2}[0-9]{9}$> 

Великобритания 

<"(СВ)?([0-9]{9}([0-9]{3})?|[А-2]{2}[0-9]{3})$> 

Венгрия 

<“(Ни)?[0-9]{8}$> 

Ирландия 

<‘(1Е)?[0-9]3[0-9]{5}1-$> 

Италия 

<"(ІТ)?[0-9]{11}$> 

Литва 

<"(І-Т)?([0-9]{9}|[0-9]{12})$> 

Люксембург 

<"(Ш)?[0-9]{8}$> 

Латвия 

<"(І_Ѵ)?[0-9]{11}$> 
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Страна 

Регулярное выражение, совпадающее с номером 
плательщика НДС 

Мальта 

<"(МТ)?[0-9]{8}$> 

Нидерланды 

<"(МІ.)?[0-9]{9>В[0-9]{2}$> 

Польша 

<~(РІ_)?[0-9]{10}$> 

Португалия 

<-(РТ)?[0-9]{9}$> 

Румыния 

<~(В0)?[0-9]{2,10}$> 

Швеция 

<~(5Е)?[0-9]{12}$> 

Словения 

<~(ЗІ)?[0-9]{8}$> 

Словакия 

<"(5К)?[0-9]{10}$> 


За основу для реализации проверки регистрационного номера выбран¬ 
ным регулярным выражением можно взять рецепт 3.6. Она позволит 
определить корректность регистрационного номера для страны, ука¬ 
занной клиентом. 

Главное преимущество использования отдельных регулярных выраже¬ 
ний состоит в том, что появляется возможность вставлять код страны 
в начало номера, не требуя этого от клиента. Если регулярное выраже¬ 
ние соответствует введенному номеру, можно проверить содержимое 
первой сохраняющей группы. Как это сделать, описывается в рецеп¬ 
те 3.9. Если первая сохраняющая группа ничего не содержит, следова¬ 
тельно, клиент не ввел код страны. В этом случае можно добавить код 
страны перед номером, прежде чем сохранять его у себя в базе данных. 

Греческие регистрационные номера могут содержать один из двух ко¬ 
дов страны. Код ЕГ. традиционно используется в греческих регистраци¬ 
онных номерах, а код (Ж является стандартизованным кодом страны 
для Греции. 

См. также 

Регулярное выражение просто проверяет, выглядит ли введенная по¬ 
следовательность как регистрационный номер плательщика НДС. Это¬ 
го вполне достаточно, чтобы выявить непредумышленные ошибки. Ре¬ 
гулярное выражение не проверяет, принадлежит ли введенный регист¬ 
рационный номер компании, указанной в форме заказа. Проверить 
принадлежность регистрационного номера, если таковой вообще был 
кому-то присвоен, можно на странице кіір://ес.еигора.еи/іахаііоп_сиз- 
іотз/ѵіез/ѵіезкотеАо . 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 
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В этой главе содержатся рецепты, связанные с поиском и манипулиро¬ 
ванием текстом в различных контекстах. Одни рецепты демонстриру¬ 
ют, как реализовать расширенные функции поисковых механизмов, 
такие как поиск одного из нескольких слов или поиск слов, находящих¬ 
ся рядом друг с другом. Другие помогут вам отыскивать целые строки, 
содержащие определенные слова, удалять повторяющиеся слова или 
экранировать метасимволы регулярных выражений. 

Основная цель этой главы состоит в том, чтобы продемонстрировать 
различные приемы и конструкции регулярных выражений в действии. 
Чтение этой главы сродни тренировке в применении большого числа 
особенностей регулярных выражений, что должно помочь наработать 
навыки применения регулярных выражений в решении стоящих перед 
вами задач. Во многих случаях мы ограничиваемся поиском простого 
текста, но предлагаемые шаблоны решений могут быть адаптированы 
вами под решение конкретных проблем. 

5.1. Поиск определенного слова 

Задача 

Перед вами стоит простая задача — отыскать все вхождения слова саі 
без учета регистра символов. Выражение должно обнаруживать только 
те вхождения, которые являются отдельными словами. Оно не должно 
обнаруживать вхождения, являющиеся частью других слов, таких как 

Ііеіісаі:, арріісаіііоп или Саімотап. 


Решение 

Решить эту проблему помогут метасимволы границы слова: 
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\Ьса1:\Ь 

Параметры: нечувствительность к регистру символов 

Диалекты: ^ЕТ, ^ѵа, ^ѵайсгірі;, РСКЕ, Регі, РуНюп, КиЪу 

Обсуждение 

Метасимволы границы слова, находящиеся с обоих концов регулярно¬ 
го выражения, гарантируют, что совпадение с текстом саі будет обнару¬ 
живаться, только если он появляется только как самостоятельное сло¬ 
во. Точнее, границы слова требуют, чтобы фрагмент с а! отделялся от 
остального текста началом или концом строки, пробельными символа¬ 
ми, знаками пунктуации или другими символами, не являющимися 
символами слова. 

Механизмы регулярных выражений интерпретируют буквы, цифры 
и символ подчеркивания как символы слова. Впервые и достаточно по¬ 
дробно мы знакомились с границами слова в рецепте 2.6. 

В диалектах ^ѵа8сгірІ, РСКЕ и КиЬу могут возникнуть проблемы с ин¬ 
тернациональным текстом, так как в этих диалектах при определении 
границ слова в учет принимаются только символы кодировки А8СІІ. 
Другими словами, границы слова обнаруживаются только в позициях 
между совпадениями с выражениями <[~А-2а-20-9_]Г> и <[А-2а-гО-9_]> или 
между совпадениями с выражениями <[А-2а-гО-9_]> и <[~А-2а-20-9_]|$>. То 
же относится и к РуіЬоп, если при создании регулярного выражения не 
был установлен флаг ІШССЮЕ или У. Эта особенность препятствует ис¬ 
пользованию метасимвола <\Ь> для поиска «только целого слова» в тек¬ 
сте, содержащем символы из алфавитов, отличных от алфавита Ъаііп. 
Например, в ^ѵаЗсгірІ, РСКЕ и КиЬу регулярное выражение <\ЬйЬег\Ь> 
будет обнаруживать совпадение внутри слова УагиЬег и не будет обнару¬ 
живать внутри текста сіаг иЬег. В большинстве случаев такой результат 
представляет собой полную противоположность желаемому. Проблема 
обусловлена тем, что символ и интерпретируется не как символ слова, 
поэтому метасимвол границы слова обнаруживает совпадение между 
символами гй. В свою очередь, между пробелом и символом й граница 
слова не обнаруживается, потому что они образуют непрерывную по¬ 
следовательность символов, не являющихся символами слова. 

Эту проблему можно решить, применив вместо метасимвола границы 
слова опережающую и ретроспективную проверки {проверки соседних 
символов - см. рецепт 2.6). Подобно метасимволу границы слова про¬ 
верка соседних символов обеспечивает совпадение нулевой длины с не¬ 
которой позицией. В диалектах РСКЕ (когда эта библиотека скомпили¬ 
рована с поддержкой ИТЕ-8) и КиЬу 1.9 имеется возможность имитиро¬ 
вать поддержку границы слова в кодировке Юникод, например 
<(? < =[ Л \р{Ь}\р{М}]Г)саЕ(?=[''\р{1}\р{М}]|$)>. В этом регулярном выражении 
использованы метасимволы категорий Юникода Ъеііег и Магк (<\р{1_}> 
и <\р{М}>), которые рассматривались в рецепте 2.7. Если потребуется, 
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чтобы проверка соседних символов интерпретировала десятичные циф¬ 
ры и знак-соединитель (символ подчеркивания и сходные с ним) как 
символы слова (подобно метасимволу <\Ь>), замените обе конструкции 
<Г\ра}\р{М}]> символьным классом <["\р{1_}\р{М}\р{МсІ}\р{Рс}]>. 

В ^ѵа8сгір! и КиЪу 1.8 не поддерживаются ни ретроспективная про¬ 
верка, ни категории Юникода. Обойти отсутствие поддержки ретро¬ 
спективной проверки в этих диалектах можно сопоставлением с симво¬ 
лом, не являющимся символом слова, перед каждым совпадением, а за¬ 
тем либо удалением его из каждого совпадения в программном коде, 
либо возвращением его обратно в строку при выполнении операции за¬ 
мещения (примеры использования фрагментов совпадений в замещаю¬ 
щем тексте приводятся в рецепте 3.15). Кроме того, отсутствие под¬ 
держки категорий Юникода (вместе с тем фактом, что в обоих языках 
программирования метасимволы <\ю и <\ІЛІ> поддерживают только сим¬ 
волы А8СІІ) означает, что придется обходиться менее универсальным 
решением. Кодовые пункты из категорий Ьеііег и Магк рассеяны по 
всему набору символов Юникода, поэтому потребовались бы тысячи 
символов, чтобы имитировать конструкцию <[~\р{І_}\р{М}]> с помощью 
экранированных последовательностей Юникода и символьных клас¬ 
сов. Неплохим компромиссом мог бы стать символьный класс <[~А-2а-і\ 
хАА\хВ5\хВА\хС0-\х06\х08-\хР6\хР8-\хРР]>, которому соответствуют все бук¬ 
вы (кроме букв Юникода) в восьмибитовом адресном пространстве (то 
есть первые 256 кодов Юникода со значениями от 0x00 до ОхГГ). Спи¬ 
сок соответствующих символов приводится на рис. 5.1. Этот символь¬ 
ный класс будет исключать множество (или в неинвертированной фор¬ 
ме совпадать с множеством) наиболее часто используемых символов 
с диакритическими знаками. 
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Рис . 5,1. Алфавитные символы Юникода в восьмибитовом 
адресном пространстве 
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Ниже демонстрируется, как можно заменить все вхождения слова «саі» 
словом «сіо^» в ЗаѵаЗсгірІ. Этот пример корректно опознает все наибо¬ 
лее типичные акцентированные символы, поэтому слово ёсаі останется 
без изменений. Для этого потребовалось сконструировать собственный 
символьный класс и отказаться от использования встроенных мета¬ 
символов <\Ь> и <\\л/>: 

// 8-битные алфавитные символы 

ѵаг рІ_ = "А-2а-2\хАА\хВ5\хВА\хС0-\х06\х08-\хР6\хР8-\хРР”, 
раТТегп = ”(Г{1-}]Г)саТ([''{1-}]|$)". гер1асе(/{І_}/д, рІ_), 
гедех = пе\л/ ЯедЕхрСраТТегп, "ді” ); 

// заменить саТ на бод и вернуть в строку 
// любые совпавшие дополнительные символы 
зи^есі: = зиЬ]ес1і. гер1асе(гедех, "$1бод$2"); 

Примечательно, что для вставки специальных символов в строковый 
литерал в ^ѵа8сгірЪ используется форма записи \хНН (где НН - это дву¬ 
значное шестнадцатеричное число). Следовательно, переменная рІ_, ко¬ 
торая передается в регулярное выражение, будет содержать литераль¬ 
ные версии символов. Если необходимо, чтобы в регулярное выражение 
передавались сами метапоследовательности \хНН, их необходимо экра¬ 
нировать в строковом литерале с помощью символа обратного слэша 
(например, "\\хНН ). Однако в данном случае это не имеет большого зна¬ 
чения и не окажет влияния на совпадение с регулярным выражением. 

См. также 

В этой главе вы встретитесь с множеством рецептов, реализующих со¬ 
поставление с отдельными словами. В рецепте 5.2 объясняется, как 
отыскать любое из множества слов. В рецепте 5.3 описывается, как ис¬ 
кать похожие слова. В рецепте 5.4 рассказывается, как найти все слова, 
кроме определенного. В рецепте 5.10 демонстрируется, как найти сов¬ 
падение с полными строками, содержащими определенное слово. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных клас¬ 
сах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецепте 2.6 
говорится о границах слов. В рецепте 2.7 рассказывается о сопоставле¬ 
нии с символами Юникода. В рецепте 2.8 описывается применение опе¬ 
ратора выбора. В рецепте 2.9 рассказывается о группировке. В рецеп¬ 
те 2.16 рассказывается об опережающих и ретроспективных проверках. 

5.2. Поиск любого слова из множества 

Задача 

Необходимо отыскать одно из слов из списка, не выполняя несколько 
операций поиска в испытуемом тексте. 
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Решение 

С использованием конструкции выбора 

Самое простое решение заключается в создании конструкции выбора 
из требуемых слов: 

\Ь(?: опе 11:\л/о |1:1пгее)\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ^ѵаБсгірі;, РСКЕ, Регі, РуІЪоп, КиЬу 

Более сложные примеры поиска похожих слов рассматриваются в ре¬ 
цепте 5.3. 

Пример решения на языке .ІаѵаБсгірІ: 

ѵаг зиб^есі: = "Опе іітез Іѵѵо ріиз опе ециаіз ІіМ гее ."; 

// Решение 1: 

ѵаг гедех = /\Ь(? : опе | Ііѵѵо 11:1пгее )\Ь/ді ; 
зиЬ]ес1і. таІсР (гедех); 

// вернет массив с четырьмя совпадениями: ["Опе", "ШГ,"опе”, ’ЧИгее"] 

// Решение 2 (повторно используемое): 

// Эта функция делает то же самое, но принимает искомые слова 
// в виде массива. Любые метасимволы регулярных выражений, 

// присутствующие внутри искомых слов, перед поиском 
// экранируются символами обратного слэша. 

Еипсіііоп та1:сИ\л/огс!з(зиЬз есі: , ѵѵогсіз) { 

ѵаг гедехМеііас^агз = /[(){[*+?.\Ѵ$|]/д: 

■Гог (ѵаг і = 0; і < ѵѵогсіз. Іепдііб; і++) { 

\л/огсіз[і] = ѵѵогсіз[і]. гер1асе(гедехМеІіасГіагз, "\\$&"); 

} 

ѵаг гедех = пеѵѵ ВедЕхр("\\Ь(?:" + ѵ/огбз.;іоіп(" |") + ")\\Ь", "ді"); 
геііигп зиб^есі:.таІісМ(гедех) || []; 

} 

та1:сМ\л/огс!з(зиЬзесі:, ["опе", "іѵю", "1:1т гее" ]); 

// вернет массив с четырьмя совпадениями: ["Опе”, "1:\л/о", "опе”, "ІіМгее”] 

Обсуждение 

С использованием конструкции выбора 

Это регулярное выражение состоит из трех частей: границы слова с обо¬ 
их концов, несохраняющая группа и список слов (отделяются друг от 
друга оператором выбора < |>). Границы слова гарантируют, что регуляр- 
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ное выражение не совпадет с частью более длинного слова. Несохра¬ 
няющая группировка ограничивает область действия операторов выбо¬ 
ра; в противном случае для достижения того же эффекта регулярное 
выражение пришлось бы записать как <\Ьопе\Ь|\Ы:мо\Ь|\Ы;Іігее\Ь>. Каж¬ 
дое из слов должно просто совпасть литерально. 

Так как слова с обеих сторон окружены границами слова, они могут по¬ 
являться в любом порядке. Однако если бы в выражении отсутствовали 
границы слова, то важно было бы первыми указать более длинные сло¬ 
ва, в противном случае выражение <а\л/е|а\л/езоте> никогда не смогло бы 
найти совпадение со словом «адѵезоте», так как оно всегда обнаружива¬ 
ло бы совпадение с «алѵе» в начале слова. 






Так как механизм регулярных выражений пытается найти совпаде¬ 
ние с каждым словом из списка, просматривая его слева направо, 
можно добиться некоторого повышения производительности, если 
в начало списка поместить слова, которые могут встречаться в ис¬ 
пытуемом тексте с большей долей вероятности. 


Обратите внимание, что это регулярное выражение предназначено лишь 
для того, чтобы в общих чертах продемонстрировать возможность совпа¬ 
дения с одним словом из списка. Поскольку в данном примере оба слова 
<Іѵ\/о> и <11ігее> начинаются с одного и того же символа, есть возможность 
помочь механизму регулярных выражений, переписав регулярное вы¬ 
ражение как <\Ь(?:опе|^(?:\л/о|1ігее))\Ь>. Однако на практике не стоит дохо¬ 
дить до крайности в подобной тонкой ручной оптимизации. Большинст¬ 
во механизмов регулярных выражений применяют подобные оптимиза¬ 
ции автоматически, по крайней мере в наиболее простых случаях. В ре¬ 
цепте 5.3 приводятся дополнительные примеры, демонстрирующие, как 
эффективнее выполнять поиск одного слова из списка похожих слов. 

Пример решения на языке іаѵаБсгірі 

Пример на языке ЗаѵаВсгірІ сопоставляет тот же список слов двумя раз¬ 
ными способами. В первом случае просто создается регулярное выраже¬ 
ние и с помощью метода таІсІ'К ), имеющегося у строк в языке ЗаѵаЗсгірІ, 
выполняется поиск в испытуемом тексте. При вызове методу таІісІ'іО 
передается регулярное выражение, использующее флаг /д («&1оЪа1» _ 
глобальный). Он возвращает массив всех совпадений, обнаруженных 
в строке, или значение пиіі, если не найдено ни одного совпадения. 

Во втором случае используется функция та^сНІл/огсІз(), принимающая ис¬ 
пытуемую строку, внутри которой требуется выполнить поиск, и массив 
искомых слов. Эта функция сначала экранирует любые метасимволы 
регулярных выражений, которые могут присутствовать в искомых сло¬ 
вах (рецепт 2.1), и компонует из списка слов новое регулярное выраже¬ 
ние, используемое для поиска в строке. Затем это регулярное выражение 
используется для поиска в строке сразу всех искомых слов вместо пере¬ 
бора их в цикле. Функция возвращает массив обнаруженных совпаде- 
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ний или пустой массив, если сгенерированным регулярным выражени¬ 
ем не было найдено ни одного совпадения. Благодаря применению флага 
нечувствительности к регистру символов (/і) искомые слова могут состо¬ 
ять из символов верхнего и нижнего регистра в любой комбинации. 

См. также 

В этой главе вы встретитесь с множеством рецептов, реализующих со¬ 
поставление с отдельными словами. В рецепте 5.1 объясняется, как 
отыскать определенное слово. В рецепте 5.3 описывается, как искать 
похожие слова. В рецепте 5.4 рассказывается, как найти все слова, кро¬ 
ме определенного. 

В рецепте 4.11 показано решение, проверяющее утвердительные ответы, 
которое также выполняет поиск совпадения с любым из множества слов. 

Некоторые языки программирования имеют встроенные функции, вы¬ 
полняющие экранирование метасимволов регулярных выражений, как 
показано в рецепте 5.14. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.6 говорится о границах слов. В ре¬ 
цепте 2.8 описывается применение оператора выбора. В рецепте 2.9 рас¬ 
сказывается о группировке. 

5.3. Поиск похожих слов 

Задача 

В данном случае необходимо решить несколько задач: 

• Отыскать все вхождения обоих слов, соіог и соіоиг, в строке. 

• Отыскать любое из трех слов, оканчивающееся на «аі»: ЬаI, саі: или 
гаі. 

• Отыскать любое слово, оканчивающееся на рГіоЬіа. 

• Отыскать наиболее распространенные варианты записи имени «8іе- 
ѵеп»: Зіеѵе, Зіеѵеп и ЗіерНеп. 

• Отыскать совпадение с любой формой термина «ге^иіаг ехргеззіоп». 

Решение 

Ниже приводятся регулярные выражения, решающие поставленные 
задачи в порядке их следования. Во всех решениях используется ре¬ 
жим нечувствительности к регистру символов. 

Соіог или соіоиг 

\Ьсо1ои?г\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 
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Ваі, саі или гаі 

\Ь[Ьсг]аі\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Регі, Руііюп, КиЬу 

Слова, заканчивающиеся на «рНоЬіа» 

\Ь\ѵѵ/* рОоЬіа\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Ла.ѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуІЬоп, КиЪу 

Біеѵе, Біеѵеп или ЗІерЬеп 

\Ь51е(?:ѵеп? | рОеп )\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ЛѵаЕсгірІ, РСКЕ, Регі, Руіііоп, КиЬу 

Варианты написания термина «гедиіаг ехргеззіоп» 

\Ьгед(?:и1аг*ехргеззіопз?|ех(?:рз?|е[зп])?)\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Лѵа, ^ѵа8сгірі;, РСКЕ, Регі, Руіііоп, КиЬу 

Обсуждение 

Использование границ слова для обеспечения 
совпадения с целыми словами 

Для обеспечения совпадения с целыми словами во всех пяти регуляр¬ 
ных выражениях используются метасимволы границы слова (<\Ь>) . Во 
всех шаблонах используются разные способы сопоставления с вариан¬ 
тами слов, которым они соответствуют. 

Рассмотрим каждое из решений подробнее. 

Соіог или Соіоиг 

Это регулярное выражение будет совпадать со словом соіог или соіоиг , 
но не будет совпадать со словом соіогЫіпсі. В нем используется кванти¬ 
фикатор <?>, чтобы сделать необязательным совпадение с предшествую¬ 
щим ему символом и. Квантификаторы, такие как <?>, действуют не как 
шаблонные символы, знакомые многим. Они непосредственно связаны 
с предшествующими им элементами, которые могут представлять со¬ 
бой либо одиночный элемент (как литерал символа и в данном случае), 
либо группу элементов, заключенных в круглые скобки. Квантифика¬ 
тор <?> повторяет предшествующий ему элемент ноль или один раз. Ме¬ 
ханизм регулярных выражений сначала пытается сопоставить элемент, 
с которым связан квантификатор, и если эта попытка оказывается не¬ 
удачной, механизм продолжает движение вперед без сопоставления 
элемента. Любой квантификатор, допускающий нулевое число повторе- 
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ний, фактически делает необязательным совпадение с предшествую¬ 
щим ему элементом, и это как раз то, что требуется в данном случае. 

Ваі, саі или гаХ 

В этом регулярном выражении для совпадения с символом Ь, с или г ис¬ 
пользуется символьный класс, за которым следуют литералы символов 
а!. То же самое можно было бы сделать с помощью выражений <\Ь(?: Ь | с | г) 
а1:\Ь>, <\Ь(?:Ьа1:|са1:|га1:)\Ь> или <\ЬЬа1:\Ь|\ЬсаДЬ|\Ьга1:\Ь>. Однако всякий 
раз когда выбор между возможными совпадениями заключается в вы¬ 
боре единственного символа из списка, лучше использовать символь¬ 
ные классы. Мало того что символьные классы обеспечивают более ком¬ 
пактную и удобочитаемую форму записи (благодаря отсутствию опера¬ 
торов выбора и возможности использовать диапазоны, такие как А-2), 
большинство механизмов регулярных выражений также обеспечивают 
превосходную оптимизацию обработки символьных классов. Операто¬ 
ры выбора требуют от механизма регулярных выражений использовать 
дорогостоящий, в смысле вычислительных ресурсов, алгоритм возвра¬ 
тов, тогда как для сопоставления с символьными классами задейству¬ 
ется более простой метод поиска. 

Тем не менее несколько слов предостережения. Символьные классы от¬ 
носятся к элементам регулярных выражений, которые наиболее часто 
применяются неверно. Возможно, проблема в недостаточно подробной 
документации или в недостаточно внимательном ознакомлении с нею. 
Как бы то ни было, не повторяйте ошибок, характерных для начинаю¬ 
щих. Символьные классы способны обеспечить совпадение лишь с од¬ 
ним из символов, перечисленных в них, и только это. 

Ниже приводятся два наиболее типичных примера неправильного ис¬ 
пользования символьных классов: 

Помещение слов в символьные классы 

Вне всяких сомнений, выражение <[са!]{3}> будет обнаруживать сов¬ 
падение со словом са]:, но оно также будет совпадать со словами асЕ , 
11:1: и любыми другими комбинациями из перечисленных символов. 
То же относится и к инвертированным классам, таким как <[~са1:]>, 
которому соответствует любой символ, за исключением с, а и 1:. 

Попытка использовать оператор выбора в символьном классе 

Символьный класс по определению обеспечивает выбор между сим¬ 
волами, перечисленными в нем. Конструкции <[а|Ь|с]> соответствует 
один символ из множества «аЪс|». Что, вероятно, совсем не то, что вы 
подразумевали. Но даже если это не так, данный символьный класс 
содержит лишние символы вертикальной черты. 

Все подробности, которые могут пригодиться для правильного и эффек¬ 
тивного использования символьных классов, приводятся в рецепте 2.3. 
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Слова, заканчивающиеся на «рНоЬіа» 

В этом шаблоне используются особенности, применявшиеся в двух пре¬ 
дыдущих регулярных выражениях. Как и в выражении из подраздела 
«ВаЪ, са і или гаѣ», здесь применяется символьный класс (сокращение 
<\ѵ\/>), совпадающий с любым символом слова. За ним следует квантифи¬ 
катор <*>, пытающийся найти ноль или более совпадений с предыду¬ 
щим символьным классом, подобно квантификатору <?> в регулярном 
выражении из раздела «Соіог или соіоиг». 

Этому регулярному выражению соответствуют такие слова, как 
агасІіпорІіоЬіа и Мірророііотопзі:гозездиіресІаІіорІпоЬіа . Так как квантифи¬ 
катор <*> допускает нулевое число повторений, ему также будет соответ¬ 
ствовать само слово рИовіа . Если необходимо, чтобы перед окончанием 
«рйоЪіа» присутствовал хотя бы один символ, следует заменить кванти¬ 
фикатор <*> на <+>. 

51еѵе, Біеѵеп или БІерНеп 

В дополнение к другим средствам поиска альтернатив в данное регуляр¬ 
ное выражение был добавлен оператор выбора. Несохраняющая груп¬ 
пировка, записываемая как <(?:—)>, ограничивает область действия опе¬ 
ратора выбора <|>. Квантификатор <?>, применяемый к первой альтерна¬ 
тиве внутри группы, обеспечивает необязательность предшествующего 
ему символа <п>. Это увеличивает эффективность (и краткость) выраже¬ 
ния по сравнению с эквивалентным выражением <\ЬЗіе(?:ѵе|ѵеп|рІіеп)\Ь>. 
Те же соображения эффективности заставляют поместить строковый 
литерал <31:е> в начало регулярного выражения, а не повторять его три¬ 
жды, как в выражениях <\Ь(?: Зііеѵе | Зііеѵеп 131;ерИеп)\Ь> или <\ЬЗ^еѵе\Ь|\ 
ЬЗіеѵеп\Ь|\ЬЗіерІіеп\Ь>. Некоторые механизмы возвратов недостаточно 
интеллектуальны, чтобы заметить, что любой текст, соответствующий 
этим двум последним выражениям, должен начинаться с последова¬ 
тельности символов Зіе. По мере продвижения механизма по испытуе¬ 
мой строке в поисках совпадения он сначала попытается отыскать гра¬ 
ницу слова и затем убедиться, что следующий символ - это символ 3. 
Если совпадение не найдено, механизм вынужден будет опробовать все 
возможные альтернативы, присутствующие в регулярном выражении, 
прежде чем он сможет переместиться к следующей позиции в строке 
и повторить попытку. Если человек легко может заметить, что это будет 
напрасной тратой сил (так как все альтернативы в регулярном выраже¬ 
нии начинаются с последовательности Зіе), то механизм даже не подо¬ 
зревает об этом. Если же выражение записано как <\ЬЗі:е(?:ѵеп?|рІіеп)\Ь>, 
механизм тут же сообразит, что он не сможет отыскать соответствие 
в строке, которая не начинается с указанных символов. 

Более подробно о работе механизма возвратов рассказывается в рецеп¬ 
те 2.13. 
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Варианты написания термина «гедиіаг ехргеззіоп» 


Последний пример в этом рецепте соединяет в себе конструкцию выбо¬ 
ра, символьные классы и квантификаторы, чтобы отыскать совпадение 
со всеми типичными вариантами записи термина «гедиіаг ехргеззіоп». 
Поскольку на первый взгляд это регулярное выражение может пока¬ 
заться немного сложным, разобьем его на составляющие и рассмотрим 
их по отдельности. 


Регулярное выражение, которое приводится ниже, записано в режиме 
свободного форматирования, который не поддерживается диалектом 
^ѵаЗсгірІ. Поскольку в режиме свободного форматирования пробелы 
игнорируются, литералы пробелов были экранированы символами об¬ 
ратного слэша: 


\Ь 

гед 

(?: 

и1аг\ 

ехргеззіопз? 

ех 

(?: 

рз? 

I 

е[зп] 

)? 

) 

\Ь 


# Проверка совпадения с границей слова. 

# Соответствует "гед". 

# Группировка, но несохраняющая... 

# Соответствует "иіаг ”. 

# Соответствует "ехргеззіоп” или "ехргеззіопз" . 

# Или : 

# Соответствует "ех”. 

# Группировка, но несохраняющая... 

# Соответствует "р" или "рз". 

# Или: 

# Соответствует "ез” или "еп". 

# Конец несохраняющей группы. Сделать ее необязательной. 

# Конец несохраняющей группы. 

# Проверка совпадения с границей слова. 


Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЪу 


Данный шаблон совпадет с любой из следующих семи строк, содержа¬ 
щих любые комбинации букв верхнего и нижнего регистра: 

• гедиіаг ехргеззіопз 

• гедиіаг ехргеззіоп 

• гедехрз 

• гедехр 

• гедехез 

• гедехеп 

• гедех 


См. также 

В рецепте 5.1 объясняется, как отыскать определенное слово. В рецеп¬ 
те 5.2 объясняется, как отыскать любое из множества слов. В рецеп¬ 
те 5.4 рассказывается, как найти все слова, кроме определенного. 
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Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 

5.4. Поиск любых слов, 
за исключением указанного 

Задача 

Необходимо с помощью регулярного выражения отыскать совпадения 
с любыми полными словами, за исключением слова саі. Слова Саімотап, 
ѵіпсіісаііеи другие подобные слова, которые просто содержат в себе сим¬ 
волы «саі», должны совпадать, а слово с а! - нет. 

Решение 

Исключить совпадения с нежелательными словами можно с помощью 
негативной опережающей проверки, которая является ключевым эле¬ 
ментом следующего регулярного выражения: 

\Ь(?! саІ\Ь)\\л/+ 

Параметры: нечувствительность к регистру символов 
Диалекты: .КЕТ, Заѵа, ЛѵаЕсгірі;, РСКЕ, Регі, РуІЬоп, КиЪу 

Обсуждение 

Несмотря на то что с помощью инвертированного символьного класса 
(записывается как <[''■••]>) можно легко исключить возможность совпа¬ 
дения с определенными символами, тем не менее нельзя просто запи¬ 
сать <[~са1:]> и надеяться, что будут исключены совпадения со словом 
саі. <[~са!]> - это допустимое регулярное выражение, но ему соответст¬ 
вует любой символ, за исключением символов с, а и 1. Поэтому, хотя 
выражение <\Ь[~саІ]+\Ь> могло бы помочь исключить совпадения со сло¬ 
вом саі, оно точно так же исключило бы совпадения со словом ііте, по¬ 
тому что в этом слове содержится запрещенный символ 1. Регулярное 
выражение <\Ь[~с][~а][~1:]\м*> ничуть не лучше, потому что оно будет от¬ 
вергать любые слова, в которых первым следует символ с, вторым - а 
или третьим - 1. Кроме того, это регулярное выражение не накладыва¬ 
ет ограничений на первые три символа слова - оно лишь совпадает со 
словами, содержащими, по крайней мере, три символа, поскольку ни 
один из инвертированных символьных классов не является необяза¬ 
тельным. 

Учитывая все вышесказанное, рассмотрим, как регулярное выраже¬ 
ние, представленное в начале этого рецепта, позволяет решить предло¬ 
женную задачу: 
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\Ь # Проверка соответствия границе слова. 

(?! # Проверка, что регулярное выражение, следующее ниже, не найдет 

# совпадения, начиная с этой позиции. .. 
саі # Соответствие "саі". 

\Ь # Проверка соответствия границе слова. 

) # Конец негативной опережающей проверки. 

\ѵ\/+ # Соответствует одному или более символу слова. 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуМіоп, КиЬу 

Ключевым элементом этого шаблона является негативная опережаю¬ 
щая проверка <(?!■■•)>. Она отклоняет возможность совпадения с после¬ 
довательностью символов саі, за которой следует граница слова, и не 
запрещает регулярному выражению совпадать с этими же символами, 
если они не следуют именно в таком порядке или когда они составляют 
часть более длинного или более короткого слова. В конце регулярного 
выражения отсутствует проверка совпадения с границей слова, потому 
что ее присутствие не повлияет на возможность совпадения с регуляр¬ 
ным выражением. Квантификатор <+> в подвыражении <\\л/+> будет по¬ 
вторять попытки найти совпадение с символом слова максимально воз¬ 
можное число раз, то есть он всегда будет обнаруживать совпадение до 
ближайшей границы слова. 

Если применить это регулярное выражение к испытуемому тексту 

саіедогісаііу таісб апу ѵіогб ехсері саі, оно обнаружит пять совпадений: 
саіедогісаііу , таісіп , апу , ѵюгсі и ехсері . 

Варианты 

Поиск слов, не содержащих других слов 

Если вместо того чтобы пытаться отыскать совпадения с любыми слова¬ 
ми, кроме слова саі, необходимо отыскать любые слова, которые не со¬ 
держат в себе слово саі, требуется немного иной подход: 

\Ь(?: (?! саІ)\ѵО+\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуіЪоп, КиЬу 

В предыдущем разделе этого рецепта метасимвол границы слова в на¬ 
чале регулярного выражения обеспечивал удобную привязку, которая 
позволила просто поместить негативную опережающую проверку в на¬ 
чало слова. Решение, используемое здесь, не столь эффективно; тем не 
менее эта конструкция часто используется, чтобы обеспечить возмож¬ 
ность совпадения с любым словом, за исключением определенного сло¬ 
ва или шаблона. Это достигается за счет повторения группы, содержа¬ 
щей негативную опережающую проверку и единственный метасимвол, 
обозначающий символ слова. Перед сопоставлением с каждым симво- 
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лом механизм регулярных выражении проверяет отсутствие совпаде¬ 
ния со словом саі:, начиная с текущей позиции. 

В отличие от предыдущего регулярного выражения, в данном выраже¬ 
нии требуется присутствие завершающего метасимвола границы сло¬ 
ва. В противном случае оно могло бы совпасть с первой частью слова 
перед вхождением в него слова саі:. 

Если применить это регулярное выражение к испытуемому тексту 
саіедогісаііу та^сіі апу ѵюгд ехсерѣ саі:, оно обнаружит четыре совпаде¬ 
ния: таісіі , апу , \л/огс1 и ехсері . 

См. также 

В рецепте 5.1 объясняется, как отыскать определенное слово. В рецеп¬ 
те 5.5 объясняется, как отыскать любое слово, за которым не следует 
указанное слово. В рецепте 5.6 описывается, как отыскать любое слово, 
которому не предшествует указанное слово. В рецепте 5.11 демонстри¬ 
руется, как найти совпадение с полными строками, не содержащими 
определенное слово. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. В рецепте 2.9 рас¬ 
сказывается о группировке. В рецепте 2.12 объясняется, как организо¬ 
вать сопоставление с повторяющимися комбинациями символов. В ре¬ 
цепте 2.16 рассказывается об опережающих и ретроспективных про¬ 
верках. 

5.5. Поиск любого слова, за которым 
не следует указанное слово 

Задача 

Необходимо отыскать совпадение с любым словом, непосредственно за 
которым не следует слово саі:, игнорируя присутствующие между ними 
любые пробельные символы, знаки пунктуации и другие символы, не 
являющиеся символами слова. 

Решение 

Секретным ингредиентом этого рецепта является негативная опере¬ 
жающая проверка: 


\Ь\м+\Ь(?! \М+са1:\Ь) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЪу 
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Обсуждение 

Как и во многих других рецептах этой главы, совпадение с целым сло¬ 
вом обеспечивается совместной работой метасимволов границы слова 
(<\Ь>) и символа слова (<\\л/>). Более подробное описание этих особенно¬ 
стей можно найти в рецепте 2.6. 

Вторая часть этого выражения заключена в конструкцию <(?!■••)>, кото¬ 
рая представляет собой негативную опережающую проверку. Опере¬ 
жающая проверка предписывает механизму регулярных выражений 
временно пройти вперед по строке, чтобы проверить возможность сов¬ 
падения текста, находящегося непосредственно за текущей позицией, 
с шаблоном, находящимся внутри опережающей проверки. При этом 
любые символы, совпавшие с выражением внутри опережающей про¬ 
верки, не поглощаются - проверка просто убеждается, что совпадение 
возможно. Поскольку здесь используется негативная опережающая 
проверка, результат проверки инвертируется. Другими словами, если 
шаблон внутри опережающей проверки может обнаружить совпадение 
непосредственно за текущей позицией, попытка сопоставления счита¬ 
ется неудачной и механизм регулярных выражений продвигается на 
одну позицию вперед, чтобы предпринять новую попытку сопоставле¬ 
ния со всем регулярным выражением, начиная со следующего символа 
в испытуемой строке. Более подробное обсуждение опережающей (и рет¬ 
роспективной) проверки можно найти в рецепте 2.16. 

Что касается шаблона внутри опережающей проверки: конструкции 
<\М+> соответствует один или более символов, не являющихся символа¬ 
ми слова, таких как знаки препинания и пробел, которые находятся 
перед словом <саІ>, а завершающий метасимвол границы слова гаранти¬ 
рует, что совпадение будет обнаружено только со словами, за которыми 
не следует последовательность символов саі: в виде самостоятельного 
слова, но допускается, что следующее слово начинается с символов саі:. 

Следует заметить, что это регулярное выражение будет совпадать даже 
со словом саі: при условии, что за ним не следует второе слово саі. Если 
потребуется избежать совпадения со словом саі, следует объединить 
это регулярное выражение с регулярным выражением из рецепта 5.4, 
что в результате даст выражение <\Ь(?!са1\Ь)\м+\Ь(?!\М+са1\Ь)>. 

Варианты 

Если необходимо обеспечить совпадение только со словами, за которы¬ 
ми следует слово саі (не включая в совпадение само слово саі и предше¬ 
ствующие ему символы, не являющиеся символами слова), замените не¬ 
гативную опережающую проверку на позитивную и радуйтесь жизни: 

\Ь\м+\Ь(?=\М+саІ\Ь ) 

Параметры: нечувствительность к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, Руійоп, КиЬу 
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См. также 

В рецепте 5.4 рассказывается, как найти все слова, кроме определенно¬ 
го. В рецепте 5.6 описывается, как отыскать любое слово, которому не 
предшествует указанное слово. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. В рецепте 2.12 объяс¬ 
няется, как организовать сопоставление с повторяющимися комбина¬ 
циями символов. В рецепте 2.16 рассказывается об опережающих и рет¬ 
роспективных проверках. 

5.6. Поиск любого слова, которому 
не предшествует определенное слово 

Задача 

Необходимо отыскать любое слово, которое не следует непосредственно 
за словом саі, игнорируя присутствующие между ними любые симво¬ 
лы, не являющиеся символами слова. 

Решение 

Взгляд назад 

Ретроспективная проверка позволяет проверить наличие некоторого 
текста непосредственно перед текущей позицией. Она предписывает ме¬ 
ханизму регулярных выражений временно вернуться назад по строке, 
чтобы проверить возможность совпадения текста, оканчивающегося 
в позиции, где находится ретроспективная проверка. Более подробное 
обсуждение ретроспективной проверки можно найти в рецепте 2.16. 

Следующие регулярные выражения используют негативную ретро¬ 
спективную проверку <(?<! — )>. К сожалению, диалекты регулярных вы¬ 
ражений, рассматриваемые в этой книге, отличаются допустимыми 
шаблонами, которые можно помещать внутрь ретроспективной провер¬ 
ки. В результате получившиеся решения работают немного по-разному. 
Дополнительные подробности можно найти в разделе «Обсуждение» 
ниже в этом рецепте. 

Слова, не предшествующие слову «саі» 

Любое число разделяющих символов, не являющихся символами слова: 


(?<! \ЬсаТ\1л/+)\Ь\м+ 

Параметры: нечувствительность к регистру символов 

Диалект: .ЫЕТ 
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Ограниченное число разделяющих символов, не являющихся символа¬ 
ми слова: 

(?<! \Ьсаи\іл/{ 1.9} )\Ь\\л/+ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа 

Единственный разделяющий символ, не являющийся символом слова: 

(?<! \Ьса1:\І/0\Ь\м+ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп 

(?<! \\л/са1:\\л/) (?<! ~саІ\Іл/)\Ь\\л/+ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 1.9 

Имитация ретроспективной проверки 

Диалекты ^ѵа8сгір1 и КиЬу 1.8 вообще не поддерживают ретроспек¬ 
тивную проверку, хотя и предоставляют возможность опережающей 
проверки. Однако благодаря тому, что в данной задаче ретроспектив¬ 
ная проверка находится в самом начале регулярного выражения, име¬ 
ется отличная возможность имитировать ретроспективную проверку, 
разбив регулярное выражение на две части, как показано в следующем 
примере на ^ѵаЗсгірІ: 

ѵаг $иЬ]ес1: = "Му саТ із ИиГГу.", 
таіпПедех = /\Ь\м+/ 9 . 

ІоокЬеГііпсІ = /\Ьса1:\\л/+$/і, 

ІоокЬеГііпсІТуре = Гаізе, // Гаізе - негативная ретроспективная проверка 

// Іігие - позитивная ретроспективная проверка 

гпаіхііез = [], 
таіісГ», 

ІеГЕСопЩхІ; 

мНіІе (таіісіі = таіпНедех.ехес(зиЬ]ес1:)) { 

1еГ1:Соп1:ех1: = зиЬ]ес1:. зиЬзІ:гіпд(0, таіісГ». іпсіех); 

іГ (ІоокЬеГііпсІТуре == ІоокЬеМіпсІ. Іезі:(Іе'ГІіСопІіехІ:)) { 
таіісітез. ризГі(та1:сП[0]); 

} еізе { 

таіпРедех. Іазѣіпсіех = таіісіт. іпсіех + 1; 

} 

} 


// совпадения: ["Му", "саі:", "ГІиГГу"] 
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Обсуждение 

Фиксированная, конечная и бесконечная длина 
совпадения с ретроспективной проверкой 

В первом регулярном выражении используется негативная ретроспек¬ 
тивная проверка <(?<!\Ьса1:\1л/+)>. Так как квантификатор <+>, используе¬ 
мый в ретроспективной проверке, не имеет верхнего предела числа сов¬ 
павших символов, эта версия будет работать только в диалекте регуляр¬ 
ных выражений .ЫЕТ. Все остальные диалекты, рассматриваемые 
в этой книге, требуют, чтобы совпадение с шаблоном в ретроспективной 
проверке имело фиксированную или конечную длину. 

Во втором регулярном выражении квантификатор <+> в ретроспектив¬ 
ной проверке был заменен квантификатором <{1,9}>. Поэтому такое регу¬ 
лярное выражение может использоваться в диалектах .ЫЕТ и ^ѵа, ко¬ 
торые поддерживают возможность совпадения с ретроспективной про¬ 
веркой переменной длины, если заранее известен верхний предел числа 
совпадающих символов. Для примера я ограничил максимальное число 
символов, не являющихся символами слова, разделяющих отдельные 
слова, девятью. Это допускает возможность появления нескольких про¬ 
белов и знаков пунктуации между словами. Если только испытуемый 
текст не представляет собой нечто необычное, это регулярное выраже¬ 
ние будет работать точно так же, как и решение, применимое только 
в диалекте .ЫЕТ. Однако даже в диалекте .ЫЕТ указание верхнего пре¬ 
дела повторений для любых квантификаторов внутри ретроспективной 
проверки сделает регулярное выражение более безопасным, хотя бы по¬ 
тому, что в данном случае уменьшается число непредвиденных возвра¬ 
тов, которые могут возникнуть внутри ретроспективной проверки. 

В третьем регулярном выражении вообще отсутствует квантификатор 
после метасимвола <\\л/> внутри ретроспективной проверки. Для ретро¬ 
спективной проверки это дает возможность просматривать строку фик¬ 
сированной длины, что обеспечило поддержку диалектов РСКЕ, Регі 
и РуІЬоп. Но цена оказалась слишком высока, и теперь регулярное вы¬ 
ражение просто не будет совпадать со словами, которым предшествует 
слово «са1», отделяемое от анализируемого слова единственным разде¬ 
ляющим символом. Регулярное выражение будет правильно совпадать 
только со словом саі в словосочетании саі: Ииі^, но оно ошибочно будет 
совпадать с обоими словами, саі: и ЦиГГ, в строке са^, Ниі^. 

Так как КиЬу 1.9 не позволяет использовать границы слов <\Ь> в ретро¬ 
спективных проверках, в четвертом регулярном выражении использу¬ 
ются две отдельные ретроспективные проверки. Первая отвергает слово 
саѣ, если оно является предшествующим и ему самому предшествует 
символ, не являющийся символом слова, такой как пробел или знак 
пунктуации. Вторая использует якорный метасимвол Г>, чтобы предот¬ 
вратить совпадение с предшествующим словом саі:, если оно находится 
в начале строки. 
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Имитация ретроспективной проверки 

Диалект ЛѵаЗсгірІ не поддерживает ретроспективную проверку, но 
в примере программного кода на ЗаѵаЗсгірі показано, как можно ими¬ 
тировать обратную проверку, которая должна выполняться в начале 
регулярного выражения. В этом примере нет ограничений на длину 
совпадения с (имитируемой) ретроспективной проверкой. 

Для начала мы разбили регулярное выражение <(?<! \Ьса1;\\л/+)\Ь\\л/+> из 
первого решения на две части: выражение внутри ретроспективной 
проверки (<\Ьсаі\М+>) и выражение, следующее за ней (<\Ь\м+>). Затем до¬ 
бавили метасимвол <$> в конец регулярного выражения, выполняющего 
ретроспективную проверку. Если регулярное выражение ІоокЬеіііпсІ по¬ 
требуется применять в режиме «символ крышки и знак доллара соот¬ 
ветствуют границам строк» (модификатор /т), то вместо <$> следует вста¬ 
вить конструкцию <$(?!\з)>, чтобы гарантировать совпадение только 
с концом испытуемого текста. Переменная ІоокЬеІііпсІТуре указывает, 
является имитируемая ретроспективная проверка позитивной или не¬ 
гативной: значение ігие обозначает позитивную, а Таізе — негативную 
ретроспективную проверку. 

После инициализации всех переменных с помощью методов таіпРедех() 
и ехес() выполняется обход испытуемого текста (описание этого процес¬ 
са приводится в рецепте 3.11). После того как будет найдено соответст¬ 
вие, фрагмент испытуемого текста, предшествующий совпадению, ко¬ 
пируется в новую строковую переменную (ІеііСопіехІ:) и производится 
поиск совпадений с регулярным выражением ІоокЬеІііпсІ в этой строке. 
Так как в конец регулярного выражения ІоокЬеЬіпсі был добавлен якорь, 
это гарантирует, что второе совпадение будет находиться непосредст¬ 
венно перед совпадением, найденным объектом таіпНедех, то есть в кон¬ 
це ІеііСопіехІ:. Сравнивая результат выполнения ретроспективной про¬ 
верки с переменной ІоокЬеІііпсІТуре, можно определить, соответствует ли 
установленный критерий успешному совпадению. 

В заключение выполняется одно из двух возможных действий. Если сов¬ 
падение признано успешным, фрагмент, найденный объектом таіпРедех, 
добавляется в массив таісЬез. Если нет, то позиция, с которой будет про¬ 
должен поиск совпадения (для этого используется свойство таіпРедех. 
Іазііпсіех), смещается на один символ вперед от начальной позиции по¬ 
следнего совпадения объекта таіпРедех, чтобы метод ехес() не начал сле¬ 
дующую итерацию от конца текущего совпадения. 

Все! Мы закончили! 

Этот сложный трюк задействует свойство Іазііпсіех, значение которого 
динамически обновляется для регулярных выражений, использующих 
флаг /д («^ІоЬаІ» - глобальный). Обычно обновление и сброс значения 
свойства Іазііпсіех происходят автоматически. Здесь мы воспользова¬ 
лись им, чтобы взять под свой контроль порядок прохождения испы¬ 
туемого текста регулярным выражением, перемещая позицию поиска 
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совпадения вперед или назад по мере необходимости. Эта хитрость по¬ 
могает имитировать только ретроспективную проверку, находящуюся 
в начале регулярного выражения. С некоторыми изменениями этот 
программный код мог бы также использоваться для имитации ретро¬ 
спективной проверки, находящейся в самом конце регулярного выра¬ 
жения. Однако он не может обеспечить полную поддержку ретроспек¬ 
тивной проверки. Из-за необходимости организовать взаимодействие 
между механизмом ретроспективной проверки и механизмом возвра¬ 
тов такой подход не может использоваться для точной имитации пове¬ 
дения ретроспективной проверки, находящейся в середине регулярно¬ 
го выражения. 

Варианты 

Если необходимо отыскать совпадение только со словами, которым 
предшествует слово саі (исключив из совпадения само слово саі: и раз¬ 
деляющие их символы, не являющиеся символами слова), следует за¬ 
менить негативную ретроспективную проверку позитивной: 

Любое число разделяющих символов, не являющихся символами слова: 

(?<=\Ьса1:\Іл/+)\\л/+ 

Параметры: нечувствительность к регистру символов 

Диалект: .ЫЕТ 

Ограниченное число разделяющих символов, не являющихся символа¬ 
ми слова: 

(?<=\Ьса1:\Іл/{1 ,9})\м+ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа 

Единственный разделяющий символ, не являющийся символом слова: 

(?<=\ЬсаТ\№)\м+ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуПюп 

(?: (?<=\1л/са*\ІлІ) | (?<= Л са1:\\л/) )\\л/+ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, РуЙюп, КиЬу 1.9 

Эти адаптированные версии больше не содержат метасимвол границы 
слова <\Ь> перед <\м+> в конце регулярных выражений, потому что пози¬ 
тивная ретроспективная проверка уже гарантирует наличие перед сов¬ 
падением какого-либо символа, не являющегося символом слова. По¬ 
следнее регулярное выражение (добавляющее поддержку диалекта 
КиЪу 1.9) обертывает две позитивные ретроспективные проверки кон¬ 
струкцией потому что в данной позиции может совпадать 

только одна ретроспективная проверка. 
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РСКЕ 7.2 и Регі 5.10 поддерживают необычный оператор <\К> (кеер - за¬ 
помнить), переустанавливающий начальную позицию для части совпа¬ 
дения, возвращаемого в результате сопоставления (подробнее об этом 
метасимволе рассказывается в разделе «Альтернатива ретроспектив¬ 
ной проверке» в рецепте 2.16). Мы можем использовать этот метасим¬ 
вол для создания достаточно близкой имитации позитивной ретроспек¬ 
тивной проверки, не имеющей ограничений на длину совпадения, как 
показано ниже: 

\ЬсаЛ1л/ЛК\м+ 

Параметры: нечувствительность к регистру символов 

Диалекты: РСКЕ 7.2, Регі 5.10 

Между этим регулярным выражением и версией, поддерживающей 
только диалект .ЫЕТ и допускающей произвольное количество разде¬ 
ляющих символов, не являющихся символами слова, существует одно 
тонкое, но важное отличие. В отличие от ретроспективной проверки, 
текст, совпавший с частью выражения слева от <\К>, поглощается при со¬ 
поставлении, даже при том что он не включается в общий результат. Эту 
разницу можно заметить, сравнив результаты сопоставления испытуе¬ 
мой строки саі саі саі саГ с регулярными выражениями, содержащи¬ 
ми <\К> и позитивную ретроспективную проверку. В Регі и РНР, если за¬ 
менить все совпадения с <(?<=\Ьса1:\ІлІ)\\л/+> на «сіод», в результате получит¬ 
ся саі сіод сіод сіод, так как только первому слову не предшествует слово 
саі. Если воспользоваться регулярным выражением <\Ьс а1:\Ѵ\Н-\К\\л/+> , 
чтобы выполнить ту же замену, в результате получится строка саі сіод 
саі сіод. После обнаружения совпадения с первой парой слов саі саі (и за¬ 
мены на с а I сіод), следующая попытка сопоставления не сможет загля¬ 
нуть влево от своей начальной позиции, как это делает ретроспектив¬ 
ная проверка. Регулярное выражение найдет совпадение со второй па¬ 
рой слов саі саі, которую опять заменит на саі сіод. 

См. также 

Рецепт 5.4, в котором рассказывается, как найти все слова, кроме опре¬ 
деленного. В рецепте 5.5 объясняется, как отыскать любое слово, за ко¬ 
торым не следует указанное слово. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.9 рассказывается о груп¬ 
пировке. В рецепте 2.12 объясняется, как организовать сопоставление 
с повторяющимися комбинациями символов. В рецепте 2.16 рассказы¬ 
вается об опережающих и ретроспективных проверках. В этом же ре¬ 
цепте в разделе «Альтернатива ретроспективной проверке» описывает¬ 
ся метасимвол <\К>. 
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5.7. Поиск близко расположенных слов 

Задача 

Необходимо с помощью регулярного выражения имитировать ЫЕАК-по- 
иск слов, стоящих поблизости. Для тех, кто не знаком с этим термином, 
поясню: в некоторых средствах поиска, использующих логические опе¬ 
раторы, такие как М)Т или ОК, имеется также специальный оператор 
ЫЕАК. При попытке выполнить поиск по строке «лѵогсіі ЫЕАК лѵогс12» 
будут найдены слова ѵі/огсіі и тг62, следующие в любом порядке, при 
условии, что они расположены друг от друга в пределах некоторого рас¬ 
стояния. 

Решение 

Если требуется просто отыскать два разных слова, можно объединить 
два регулярных выражения, одно из которых совпадает со словом ѵюгсіі, 
находящимся перед \л/огс!2, и второе, совпадающее с искомыми словами, 
следующими в обратном порядке. Следующее регулярное выражение 
позволяет отыскивать пары слов, которые могут разделять до пяти дру¬ 
гих слов: 

\Ь(? :могс11\1а/+(? :\м+\1л/+) {0, 5>?\л/огс!2 |ѵюгсІ2\М+(? : \м+\1л/+) {0, 5} ?ѵѵ/огсіі )\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ^ѵаВсгірі;, РСКЕ, Регі, РуіЬоп, КиЪу 

\Ь(?: 

ѵѵогсИ # первое искомое слово 

\М+ (?:\\л/+\\л/+ ) {0,5}? # до пяти слов 
М 0 ГСІ 2 # второе искомое слово 

| # или шаблон из тех же слов в обратном порядке... 

МЭГСІ2 # второе искомое слово 

\іа/+ (? :\м+\\л/+){ 0, 5}? # до пяти слов 
\л/огс11 # первое искомое слово 

)\Ь 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .МЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуіЬоп, КиЬу 

Во втором регулярном выражении использован режим свободного фор¬ 
матирования и добавлены дополнительные символы пробела для повы¬ 
шения удобочитаемости. Во всем остальном эти два регулярных выра¬ 
жения совершенно идентичны. Диалект ЛѵаЗсгірі не поддерживает 
режим свободного форматирования (если не используется библиотека 
ХКе&Ехр), но другие диалекты предоставляют такую возможность. 
В рецептах 3.5 и 3.7 показано, как можно добавить эти регулярные вы¬ 
ражения в форму поиска или в другой программный код. 
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Обсуждение 

Это регулярное выражение содержит две инвертированные копии одно¬ 
го и того же шаблона, следующие друг за другом, и окружает их грани¬ 
цами слова. Первое подвыражение совпадает со словом ѵюгсіі и следую¬ 
щим за ним словом \л/огс12, между которыми могут находиться от нуля до 
пяти других слов. Второе подвыражение совпадает с теми же словами 
могсіі и мог 62, но следующими в обратном порядке. 

В обоих подвыражениях присутствует минимальный квантификатор 
<{0,5}?>. Он заставляет регулярное выражение соответствовать мини¬ 
мально возможному числу слов, расположенных между искомыми сло¬ 
вами. Если попытаться сопоставить регулярное выражение с испытуе¬ 
мым текстом могсіі могс!2 могсі2, оно совпадет с фрагментом могсіі могс!2 , 
потому что между первым и последним словами в совпадении присутст¬ 
вует минимальное (ноль) число слов. Если появится необходимость на¬ 
строить расстояние между искомыми словами, можно заменить 0 и 5 
внутри квантификаторов на нужные значения. Например, если заме¬ 
нить их значениями <{1,15}?>, это позволит отыскивать требуемые слова, 
между которыми могут находиться до 15 слов и которые обязательно 
должны отделяться хотя бы одним словом. 

Конструкции сокращенной формы записи символьных классов, кото¬ 
рые используются для сопоставления с символами слова и символами, 
не являющимися символами слова (<\м> и <\М> соответственно), следуют 
причудливому определению регулярных выражений относительно то¬ 
го, какие символы считаются символами слова (буквы, цифры и сим¬ 
вол подчеркивания). 

Варианты 

Использование условных конструкций 

Нередко одно и то же регулярное выражение можно записать несколь¬ 
кими способами. В этой книге мы старались удерживать баланс между 
переносимостью, краткостью, эффективностью и некоторыми другими 
характеристиками. Однако иногда даже далеко не идеальные решения 
могут служить наглядными примерами. В следующих регулярных вы¬ 
ражениях демонстрируются альтернативные способы поиска слов, рас¬ 
положенных недалеко друг от друга. Мы не рекомендуем использовать 
их на практике, так как, хотя они и будут совпадать с теми же самыми 
фрагментами текста, но эту работу будут выполнять немного дольше. 
Кроме того, они будут работать не во всех диалектах регулярных выра¬ 
жений. 

В первом регулярном выражении вместо простого объединения инверти¬ 
рованных шаблонов используется условная конструкция (рецепт 2.17), 
выясняющая наличие совпадения со словом ѵюгсіі или \л/огс!2 в конце ре¬ 
гулярного выражения. Условная конструкция проверяет, участвовала 




5.7. Поиск близко расположенных слов 


423 


ли первая сохраняющая группа в сопоставлении; это означает, что сов¬ 
падение началось со слова \л/огсІ2: 

\Ь(? :могсП | (\л/огсІ2) )\М+(?: Ѵл/+\1л/+) {0,5}?(?(1 )\л/о гсі 11\л/огс12)\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, РСКЕ, Регі, РуНюп 

Следующая версия также использует условную конструкцию, чтобы 
определить, совпадение с каким словом следует искать в конце, но до¬ 
бавляет еще две особенности регулярных выражений: 

\Ь(? : (?<\л/1>\л/огсП ) | (?<\л/2>\л/огс12) )\\л/+(? : \\л/+\\л/+ ) { 0, 5> ?( ? (\л/2)( ?&\л/1) | (?&\л/2) )\Ь 

Параметры: нет 

Диалекты: РСКЕ 7, Регі 5.10 

Здесь первые вхождения <\л/огс!1> и <жг62> заключены в именованные со¬ 
храняющие группы, которые записываются как <(?<пате>---)>. Это позво¬ 
ляет задействовать синтаксис обращения к подпрограмме <{2^пате)> для 
повторного использования подвыражения обращением к нему по имени. 
Это далеко не то же самое, что обратная ссылка на именованную груп¬ 
пу. Именованная обратная ссылка, такая как <\к <пате>> (.ЫЕТ, 4аѵа 7, 
ХКе&Ехр, РСКЕ 7, Регі 5.10) или <{2Р-паше)> (РСКЕ 4, Регі 5.10, РуіЬоп), 
позволяет добавить повторное сопоставление с текстом, который уже 
совпал с именованной сохраняющей группой. Подпрограмма же, такая 
как <(?&яа/ие)>, повторно задействует фактический шаблон, заключен¬ 
ный в соответствующую сохраняющую группу. Здесь нельзя использо¬ 
вать обратные ссылки, потому что в данном случае они обеспечили бы 
сопоставление со словами, которые уже совпали. Подпрограммы внут¬ 
ри условной конструкции, находящейся в конце регулярного выраже¬ 
ния, обеспечивают сопоставление со словом, совпадения с которым еще 
не было, избавляя от необходимости употреблять искомые слова еще 
раз. Это означает, что, если потребуется использовать это регулярное 
выражение для поиска других пар слов, достаточно будет изменить их 
лишь в одном месте. 

В КиЪу 1.9 именованные подпрограммы поддерживаются в виде 
конструкции <\д<па/7?е>>, но, так как в этом диалекте не поддержива- 

*Л ' ж щ 

' 71,4 / ются условные конструкции, в нем нельзя использовать регулярные 
выражения, представленные выше. РСКЕ 4 стала первой библиоте¬ 
кой регулярных выражений, в которой появилась поддержка име¬ 
нованных подпрограмм, но поначалу в ней использовался синтак¬ 
сис <(?Р>пате)>, который ныне вытеснен Регі-совместимым синтакси¬ 
сом <(?&пате)>, добавленным в Регі 5.10 и РСКЕ 7. В версию РСКЕ 7.7 
в качестве дополнительной возможности была добавлена поддерж¬ 
ка синтаксиса подпрограмм из КиЪу 1.9. 
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Сопоставление с тремя или более словами, 
расположенными поблизости 

Экспоненциальный рост числа перестановок. Сопоставление с двумя 
словами, расположенными поблизости, является достаточно простой 
задачей. В конце концов, существует всего два способа их взаимного 
расположения. Но что если потребуется отыскать три слова, которые 
могут следовать в произвольном порядке? В этом случае имеется шесть 
возможных вариантов их взаимного расположения (пример 5.1). Коли¬ 
чество вариантов взаимного расположения слов равно /г!, или произве¬ 
дению последовательности целых чисел от 1 до п (п факториал). Для 
четырех слов возможно 24 варианта их расположения. Когда вы добере¬ 
тесь до 10 слов, число вариантов превысит несколько миллионов. Про¬ 
сто нереально реализовать сопоставление более чем с несколькими сло¬ 
вами, расположенными поблизости друг от друга, используя приемы 
регулярных выражений, обсуждавшиеся до сих пор. 


Понятия, которые представлены далее в этом разделе, относятся 
к одним из самых сложных в этой книге. Поэтому не надо плохо ду¬ 
мать о своих умственных способностях, если вам не удастся разо¬ 
браться во всем с первого прочтения. 

Некрасивое решение. Один из способов решить эту проблему заключа¬ 
ется в том, чтобы повторять группу, совпадающую с искомыми словами 
или любым другим словом (после того как будет обнаружено совпаде¬ 
ние с искомым словом), и затем с помощью условных конструкций пре¬ 
пятствовать успешному завершению попытки сопоставления, пока не 
будут найдены все искомые слова. Ниже приводится пример сопостав¬ 
ления с тремя словами, следующими в любом порядке, которые могут 
разделять до пяти слов: 

\Ь(? : (?>(ѵѵогс!1 ) | (\л/о гс12) | (мэгйЗ) |(?(1)|(?(2)|(?(3)|(?! ))) )\ѵѵ+)\Ь\\лІ*? ) {3,8}Щ 
(?(1)(?(2)(?(3)|(?!))|(?!))|(?!)) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, РСКЕ, Регі 

Пример 5.1. Количество возможных перестановок 

Два значения: 

[ 12 , 21 ] 

= 2 возможных перестановки 

Три значения: 

[ 123, 132, 

213, 231, 

312, 321 ] 

= 6 возможных перестановок 
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Четыре значения: 


[ 1234, 

1243, 

1324, 

1342, 

1423, 

1432, 

2134, 

2143, 

2314, 

2341, 

2413, 

2432, 

3124, 

3142, 

3214, 

3241, 

3412, 

3421, 

4123, 

4132, 

4213, 

4231, 

4312, 

4321 ] 


= 24 возможных перестановки 


Факториалы: 

2! = 2 х 1 = 2 

3! = 3x2x1 = 6 

4! = 4 X 3 X 2 X 1 = 24 

51=5x4x3x2x1 = 120 


10! = 10 x9x8x7x6x5x4x3x2x1= 3628800 

Ниже приводится еще одно регулярное выражение, в котором атомар¬ 
ная группировка (рецепт 2.14) была заменена стандартной несохраняю¬ 
щей группировкой с целью обеспечить поддержку диалекта РуІЬоп: 

\Ь(?: (? : (могсіі ) | (могсІ2) | (могсІЗ) |(?(1)|(?(2)|(?(3)|(?! )) ) )\ѵу/+ )\Ь\\л/*?) { 3, 8} Щ 
(?(1)(?(2)(?(3)|(?!))|(?!))|(?!)) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, РСКЕ, Регі, РуіЬоп 

Квантификаторы <{3,8}>, используемые в приведенных выше регуляр¬ 
ных выражениях, просто учитывают три обязательных слова и тем са¬ 
мым допускают наличие от нуля до пяти слов между ними. Пустые не¬ 
гативные опережающие проверки, такие как <(?!)>, никогда не будут об¬ 
наруживать совпадения и используются, чтобы блокировать дальней¬ 
шее сопоставление, пока не будет найдено совпадение хотя бы с одним 
обязательным словом. Логика управления сопоставлением реализована 
на базе двух наборов вложенных условных конструкций. Первый на¬ 
бор, используя конструкцию <\м+>, препятствует совпадению с любым 
из прежних слов, пока не будет найдено совпадение хотя бы с одним 
обязательным словом. Второй набор условных конструкций в конце вы¬ 
ражения вынуждает механизм регулярных выражений производить 
возврат или терпеть неудачу, если не было найдено совпадение со всеми 
обязательными словами. 

Мы привели краткий обзор того, как это все работает, но вместо того 
чтобы дальше погружаться в детали и выяснять, как можно добавить 
дополнительные обязательные слова, рассмотрим улучшенную реали¬ 
зацию, которая обеспечивает поддержку большего числа диалектов ре¬ 
гулярных выражений и использует некоторые хитрости. 

Использование пустых обратных ссылок. Некрасивое решение вполне 
работоспособно, но оно легко может победить в конкурсе самых мало¬ 
понятных регулярных выражений на звание самого неудобочитаемого 
и сложного в сопровождении. Оно станет еще хуже, если попытаться 
добавить в него дополнительные обязательные слова. 
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К счастью, регулярные выражения предоставляют одну зацепку, кото¬ 
рую можно использовать, чтобы упростить выражение; при этом она 
добавляет поддержку диалектов ^ѵа и КиЪу (ни один из которых не 
поддерживает условные конструкции). 

Прием, описываемый в этом разделе, должен с особой осторожно¬ 
стью использоваться в окончательных версиях приложений. Мы ис¬ 
пользуем здесь особенности поведения регулярных выражений, не¬ 
документированные в большинстве библиотек. 

\Ь(? : (?>\ѵогсІ1 () |\л/огс12() |\л/о гсІЗ () | (?>\11\21\3)\\л/+) \Ь\Ѵ\І *?){3,8}\1\2\3 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, КиЪу 

\Ь(?: (? :\л/огсІ1( ) |\л/о гсІ2( ) |\л/о гсІЗ () | (? :\1 |\2|\3)\\л/+)\Ь\1л1*?){3,8}\1\2\3 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЬу 

С помощью этой конструкции легко можно добавлять обязательные 
слова. Ниже приводится пример, позволяющий находить четыре обяза¬ 
тельных слова, следующие в произвольном порядке, которые могут 
разделять до пяти слов: 

\Ь(? : (?>\л/огсМ () |мэгсІ2( ) | \л/о гсІЗ () | \л/о гсІ4 () \^ 

(?>\1 Г\21\3 | \4)\м+)\Ь\1лІ*? ) {4, 9}\1\2\3\4 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, КиЪу 

\Ь(? : (? :ѵѵогсІ1 () |\л/огсІ2( ) |ѵѵогс13( ) |\л/огс!4() 

(?:\11\21\31 \4)\ѵ/+)\Ь\1лі*7 ) {4, 9}\1\2\3\4 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, РуіЬоп, КиЬу 

Эти регулярные выражения специально используют пустые сохраняю¬ 
щие группы после каждого обязательного слова. Так как попытка сопо¬ 
ставления с обратной ссылкой, такой как <\1>, будет терпеть неудачу, ес¬ 
ли соответствующая ей сохраняющая группа еще не участвовала в со¬ 
поставлении, то обратные ссылки на пустые сохраняющие группы могут 
использоваться для управления процессом перемещения механизма ре¬ 
гулярных выражений по шаблону, как это делают условные конструк¬ 
ции в регулярных выражениях, продемонстрированных выше. Если со¬ 
ответствующая группа уже участвовала в сопоставлении, то когда меха¬ 
низм регулярных выражений достигнет обратной ссылки на эту группу, 
он просто обнаружит совпадение с пустой строкой и двинется дальше. 

Группировка <(?>\1|\2|\3)> в данном примере препятствует совпадению 
слова с <\\а/+>, пока не будет найдено хотя бы одно совпадение с обязатель¬ 
ным словом. В конце регулярного выражения обратные ссылки повто¬ 
ряются еще раз, чтобы воспрепятствовать окончательному совпадению, 
пока не будут найдены все три обязательных слова. 
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Диалект РуІЬоп не поддерживает атомарную группировку, поэтому 
в примерах, где РуЙюп перечислен в списке поддерживаемых диалек¬ 
тов, атомарные группировки заменены обычными несохраняющими 
группами. Это приводит к снижению эффективности регулярного вы¬ 
ражения, но не влияет на результат сопоставления. Самая внешняя 
группировка не может быть атомарной ни в одном из диалектов, потому 
что для выполнения поставленной задачи механизму регулярных вы¬ 
ражений требуется иметь возможность выполнять возвраты внутри 
внешней группы, если обратные ссылки в конце регулярного выраже¬ 
ния терпят неудачу при сопоставлении. 

В ^ѵаЗсгірі применяются свои правила для работы с обратными ссыл¬ 
ками. Хотя диалект ^ѵаЗсгірі; поддерживает все синтаксические кон¬ 
струкции, присутствующие в версии этого шаблона для РуПюп, он име¬ 
ет два ограничения, препятствующие возможности использовать эту 
хитрость, как в других диалектах. Первая проблема состоит в том, что 
обратная ссылка на сохраняющую группу будет обнаруживать совпаде¬ 
ние, даже если она еще не участвовала в сопоставлении. Спецификация 
на ^ѵа8сгірѣ требует, чтобы такие обратные ссылки соответствовали 
пустой строке или, говоря другими словами, они всегда обнаруживают 
совпадение. Практически во всех других диалектах все происходит 
с точностью до наоборот: они никогда не обнаруживают совпадение, 
в результате чего механизм регулярных выражений вынужден произ¬ 
водить возвраты, либо пока не потерпит неудачу совпадение со всем ре¬ 
гулярным выражением, либо пока группы, на которые они ссылаются, 
не примут участие в сопоставлении и не обеспечат возможность совпа¬ 
дения для обратных ссылок. 

Вторая проблема в диалекте ^ѵаВсгірѣ связана со значениями, которые 
запоминаются сохраняющими группами, вложенными в повторяющу¬ 
юся внешнюю группу, например <((а)|(Ь))+>. В большинстве диалектов 
регулярных выражений значениями, запоминаемыми сохраняющими 
группами, находящимися внутри повторяющейся внешней группы, яв¬ 
ляются совпадения, обнаруженные в последней попытке сопоставле¬ 
ния. Так, если при попытке сопоставления выражение <(?:(а)|(Ь))+> об¬ 
наружило совпадение с фрагментом аЬ, значением первой обратной 
ссылки будет символ а. Однако согласно спецификации на ^ѵа8сгірІ, 
значения обратных ссылок на вложенные группы должны сбрасывать¬ 
ся всякий раз, когда выполняется очередное повторение внешней груп¬ 
пы. По этой причине выражение <(?:(а)|(Ь))+> также будет совпадать 
с фрагментом аЬ, но по окончании сопоставления обратная ссылка 1 бу¬ 
дет ссылаться на сохраняющую группу, не участвовавшую в сопостав¬ 
лении, и в ЛѵаЗсгірі будет совпадать с пустой строкой в пределах само¬ 
го регулярного выражения и возвращать значение ипйеТіпесІ, например 
в массиве, возвращаемом методом гедехр.ехе с(). 

Любого из этих отличий в поведении диалекта ^ѵаЗсгірі; достаточно, 
чтобы избегать возможности имитировать условные конструкции с по¬ 
мощью пустых сохраняющих групп, как было описано выше. 
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Множество слов на любом расстоянии друг от друга 

Если необходимо просто проверить наличие некоторых слов в испытуе¬ 
мом тексте, не принимая во внимание их близость, можно воспользо¬ 
ваться опережающей проверкой, чтобы реализовать поиск в одной опе¬ 
рации. 



Во многих случаях гораздо проще и эффективнее выполнять не¬ 
сколько операций поиска, по одной для каждого искомого слова, про¬ 
сто следя за тем, чтобы все проверки дали положительный результат. 


"(?=. *?\Ь\л/огсІ1\Ь)(?=. *?\Ь\л/огсІ2\Ь) . * 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк (режим «символам А и $ соответствуют гра¬ 
ницы строк» должен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуУюп, КиЪу 

*'(?=[ \з\5 ] *?\Ь\л/о гсП \Ь) (?=[ \з\3 ] * ?\Ьмо гсІ2\Ь ) [ \з\5 ] * 

Параметры: нечувствительность к регистру символов (режим «симво¬ 
лам " и $ соответствуют границы строк» должен быть выключен) 
Диалекты: .ЫЕТ, ^ѵа, Заѵавсгірі, РСКЕ, Регі, Руііюп, КиЬу 

Эти регулярные выражения совпадают со всем испытуемым текстом, 
если внутри него присутствуют все искомые слова. В противном случае 
никаких совпадений обнаружено не будет. Программисты на ЛѵаЗсгірі 
не смогут использовать первую версию без применения библиотеки 
ХКе^Ехр, потому что стандартный ^ѵаЗсгір! не поддерживает режим 
«точке соответствуют границы строк». 

Эти регулярные выражения можно реализовать, следуя примеру в ре¬ 
цепте 3.6. Перед его использованием необходимо заменить <\л/огс!1> и <\д/огсІ2> 
словами, которые требуется отыскать. Если необходимо проверить нали¬ 
чие большего числа слов, можно добавить в начало регулярного выраже¬ 
ния столько опережающих проверок, сколько потребуется. Например, 
выражение Г(?=.*?\Ь\л/огс11\Ь)(?=. *?\Ьѵѵ/огс12\Ь)(?=.*?\Ь\л/огсІЗ\Ь). *> отыскивает 
три слова. 

См. также 

В рецепте 5.5 объясняется, как отыскать любое слово, за которым не 
следует указанное слово. В рецепте 5.6 описывается, как отыскать лю¬ 
бое слово, которому не предшествует указанное слово. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных клас¬ 
сах. В рецепте 2.6 говорится о границах слов. В рецепте 2.8 описывается 
применение оператора выбора. В рецепте 2.9 рассказывается о группи¬ 
ровке. В рецепте 2.10 обсуждаются обратные ссылки. В рецепте 2.11 об¬ 
суждаются именованные группировки. В рецепте 2.12 объясняется, 
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как организовать сопоставление с повторяющимися комбинациями сим¬ 
волов. В рецепте 2.14 описывается атомарная группировка. В рецеп¬ 
те 2.17 демонстрируется применение условных конструкций. 

5.8. Поиск повторяющихся слов 

Задача 

Вы редактируете некоторый документ, и вам потребовалось проверить 
наличие ошибочно повторяющихся слов. При поиске не должны учи¬ 
тываться различия в регистре символов, такие как «ТЬе ІЪе». Кроме то¬ 
го, требуется обеспечить возможность разделения слов разным числом 
пробелов, даже если при этом слова будут переноситься на другую стро¬ 
ку. Однако они не должны расцениваться как повторяющиеся при на¬ 
личии знаков пунктуации между одинаковыми словами. 

Решение 

Обратная ссылка соответствует тому, что уже совпало раньше, благода¬ 
ря чему она является ключевым ингредиентом данного рецепта: 

\Ь([А-2]+)\з+\1Ѵ> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуіЬоп, КиЪу 

Если предполагается использовать это выражение, чтобы сохранить 
первое слово и удалить все последующие дубликаты, следует заменить 
все совпадения с обратной ссылкой 1. Другой подход заключается в том, 
чтобы выделить совпадения, окружив их другими символами (напри¬ 
мер, тегами НТМЬ), чтобы при последующем просмотре их легко мож¬ 
но было идентифицировать. В рецепте 3.15 показано, как использовать 
обратные ссылки в замещающем тексте, который потребуется для реа¬ 
лизации любого из этих подходов. 

Если требуется просто отыскать повторяющиеся слова, чтобы самому 
проверить, действительно ли это ошибка, можно воспользоваться ре¬ 
цептом 3.7, где приводится программный код, необходимый для этого. 
Текстовый редактор или инструмент, подобный &гер, аналогичный тем, 
что перечислены в разделе «Инструменты для работы с регулярными 
выражениями» главы 1, помогут вам отыскать повторяющиеся слова, 
а доступность окружающего текста позволит определить, действитель¬ 
но ли повторение слов является ошибкой, которую следует исправить. 

Обсуждение 

Чтобы обнаружить повторное совпадение с тем, что уже совпало ранее, 
необходимы сохраняющая группа и обратная ссылка. Нужно просто по¬ 
местить в сохраняющую группу то, что может совпадать более одного 
раза, и затем добавить сопоставление с обратной ссылкой. Этот прием 
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работает иначе, чем простое повторение элемента или группы с помо¬ 
щью квантификатора. Рассмотрим различия между простыми регуляр¬ 
ными выражениями <(\м)\1> и <\м{2}>. В первом выражении для обнаруже¬ 
ния повторного совпадения с тем же самым символом слова используют¬ 
ся сохраняющая группа и обратная ссылка, тогда как во втором выра¬ 
жении применение квантификатора обеспечивает совпадение с любыми 
двумя символами слова. Подробнее об обратных ссылках рассказывает¬ 
ся в рецепте 2.10. 

Вернемся к нашей задаче. Решение, представленное в этом рецепте, 
отыскивает повторяющиеся слова, состоящие только из символов от А 
до 1 и от а до ъ (поскольку включен режим нечувствительности к регист¬ 
ру символов). Чтобы обеспечить возможность поиска повторяющихся 
слов, содержащих символы из других алфавитов, можно использовать 
категорию Юникода Ьеііег <\р{!_}>, если диалект регулярных выраже¬ 
ний поддерживает такую возможность (раздел «Категории Юникода» 
в рецепте 2.7). 

Элементу <\з+>, расположенному между сохраняющей группой и обрат¬ 
ной ссылкой, соответствует любое число пробельных символов, таких 
как пробел, табуляция или разрыв строки. Если требуется ограничить 
набор символов, которые могут разделять повторяющиеся слова, гори¬ 
зонтальными пробельными символами (то есть исключить из совпаде¬ 
ния разрывы строк), нужно заменить <\з+> на <[*\1:\хА0]>. Это позволит 
избежать совпадения с повторяющимися словами, расположенными 
в разных строках текста. Комбинация <\хА0> в символьном классе соот¬ 
ветствует неразрывному пробелу, который встречается в текстах, ско¬ 
пированных из веб-страниц (многие веб-разработчики используют мне¬ 
монику &пЬзр; для вставки неразрывных пробелов в содержимое веб¬ 
страниц). Диалекты РСКЕ 7.2 и Регі 5.10 включают метасимвол <\Іі>, 
представляющий сокращенную форму записи символьного класса, ко¬ 
торый предпочтительнее в данной ситуации, так как он специально 
создан, чтобы соответствовать горизонтальному пробельному символу, 
а также некоторым другим необычным пробельным символам. 

Наконец, границы слова в начале и в конце регулярного выражения га¬ 
рантируют, что совпадения не будут обнаруживаться в середине других 
слов (например, «Низ ІЬізІІе»). 

Следует заметить, что повторяющиеся слова в тексте не всегда являют¬ 
ся ошибкой, поэтому простое удаление их без визуального просмотра 
может оказаться неправильным. Например, в разговорном английском 
языке допустимыми считаются такие конструкции, как «ІЬа і ІЪаІ» или 
«Ьагі Ьай». Омонимы, названия, звукоподражательные слова (такие как 
«оіпк оіпк» или «Ьа Ьа») и некоторые другие конструкции иногда обра¬ 
зуются повторяющимися словами. Поэтому в большинстве случаев не¬ 
обходимо визуально исследовать каждое совпадение. 
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Варианты 

Решение, представленное выше, специально было максимально упроще¬ 
но. Но из-за этой простоты не учитываются некоторые частные случаи: 

• Повторяющиеся слова, включающие буквы с акцентами и другими 
диакритическими знаками, такие как «саіё саіё» или «паіѵе паіѵе». 

• Повторяющиеся слова, включающие дефисы, апострофы или закры¬ 
вающие одиночные кавычки, такие как «со-сЬаіг со-сйаіг», «йопЧ 
бопЧ» или «гоШп’ гоШп’». 

• Повторяющиеся слова, состоящие из букв нелатинского алфавита, 
такие как русские слова «друзья друзья». 

Необходимость решения этих проблем вынуждает нас отказаться от ме¬ 
тасимвола <\Ь> границы слова, который использовался выше, чтобы га¬ 
рантировать совпадение с целым словом. Неработоспособность <\Ь> в пе¬ 
речисленных только что ситуациях объясняется двумя причинами. 
Во-первых, дефисы и апострофы не являются символами слова, поэто¬ 
му граница слова не будет обнаружена между пробельным символом 
или знаком пунктуации, отделяющим слова, и дефисом или апостро¬ 
фом, находящимся в начале или в конце слова. Во-вторых, в некоторых 
диалектах метасимвол <\Ь> не поддерживает Юникод (раздел «Символы 
слов» в рецепте 2.6), поэтому он не всегда будет работать правильно, ес¬ 
ли в испытуемом тексте имеются буквы, отличные от букв А-2 латин¬ 
ского алфавита без диакритических знаков. 

По этим причинам, чтобы гарантировать совпадение только с целым 
словом, вместо <\Ь> следует использовать опережающие и ретроспектив¬ 
ные проверки (рецепт 2.16). Для поддержки букв и диакритических 
знаков из любых алфавитов необходимо также использовать категории 
Юникода <\р{1_}> и <\р{М}> (рецепт 2.7): 

(?<! [\р{І-}\р{М}\- ’\и2019]) ([\- ’ \и2019]?(? : [\р{І_}\р{М} ][\- ’ \и2019]?)+)и 
\з+\1(?! [\р{І_}\р{М}\- ’\и2019]) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, КиЪу 1.9 

Несмотря на то что категория <\р{1_}> соответствует любым буквам в лю¬ 
бом регистре, необходимо использовать параметр «нечувствительность 
к регистру символов», потому что при сохранении совпадения в обрат¬ 
ной ссылке <\1> может использоваться регистр символов, отличный от 
регистра символов в исходном совпавшем слове. 

Последовательности <\и2019> в регулярном выражении совпадают с за¬ 
крывающей одиночной кавычкой (’). В диалектах Регі и РСКЕ исполь¬ 
зуется другой синтаксис сопоставления с отдельными кодовыми пунк¬ 
тами Юникода, поэтому для поддержки этих диалектов регулярное вы¬ 
ражение необходимо немного изменить: 

(?<! [\р{1}\р{М}\- ’\х{2019} ])([\- ’\х{2019} ]?(? : [\р{[_}\р{М}]и 

[\- \х{2019} ]? ) + )\з+\1(?! [\р{І_}\р{М}\- ’\х{2019} ]) 
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Параметры: нечувствительность к регистру символов 
Диалекты: Заѵа 7, РСКЕ, Регі 

Ни одно из этих регулярных выражений не может использоваться в 
ѵаЗсгірІ, РуЙюп или КиЪу 1.8, так как в этих диалектах отсутствует 
поддержка категорий Юникода, таких как <\р{1_}>. Кроме того, в Заѵа- 
8сгір1 и КиЬу 1.8 отсутствует поддержка ретроспективных проверок. 

Ниже приводится несколько примеров повторяющихся слов, совпа¬ 
дающих с представленными выше регулярными выражениями: 

• ТИе Иле 

• саГё саГе 

• друзья друзья 

• сіоп’1: сіоп'-Е 

• гоПігГ гоіііп' 

• О’КееГГе’з О’КееГГе’з 

• со-сГаіг со-сГаіг 

• сіеѵіі-таѵ-саге сіеѵіі-таѵ-саге 

Ниже приводится несколько примеров строк, не совпадающих с регу¬ 
лярными выраженияим: 

• Геііо, Геііо 

• 1000 1000 

• _ 

• ГезГ”іпд ГезГ”іпд 

• опе--1:\л/о опе--Г\ѵо 

См. также 

В рецепте 5.9 демонстрируется, как отыскивать повторяющиеся строки. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. В рецепте 2.7 расска¬ 
зывается о сопоставлении с символами Юникода. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.10 обсуждаются обратные ссылки. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. В рецепте 2.16 рассказывается 
об опережающих и ретроспективных проверках. 

5.9. Удаление повторяющихся строк 

Задача 

Имеется некоторый файл журнала, результат выполнения запроса 
к базе данных или какой-нибудь другой файл или текст с повторяющи¬ 
мися строками. Необходимо с помощью текстового редактора или похо- 
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жего инструмента удалить все дубликаты, оставив единственную стро¬ 
ку из каждой группы повторений. 

Решение 

Существуют различные программы (включая утилиту ипщ командной 
строки в системе ІШІХ и команду СеІ-ІМдие оболочки РолѵегЗЬеІІ в сис¬ 
теме ДѴіпсІолѵз), способные помочь удалить дубликаты строк, встречаю¬ 
щиеся в файле или в тексте. В следующем разделе будут представлены 
три варианта решения задачи, основанные на использовании регуляр¬ 
ных выражений, которые могут быть особенно полезны при попытке 
решить эту задачу в текстовом редакторе, обеспечивающем поддержку 
регулярных выражений и операции поиска с заменой. 

При программировании второе и третье решения использовать не сле¬ 
дует, поскольку они неэффективны в сравнении с другими доступными 
средствами, такими как использование хешей 1 для хранения уникаль¬ 
ных строк. Однако первое решение (которое требует, чтобы строки бы¬ 
ли отсортированы заранее, что позволит удалить не только рядом стоя¬ 
щие дубликаты) может быть вполне применимо, так как отличается 
простотой и высокой скоростью работы. 

Решение 1: сортировка строк и удаление 
смежных дубликатов 

Если есть возможность отсортировать строки в файле или в тексте, что¬ 
бы все повторяющиеся строки оказались следующими друг за другом, 
ее необходимо использовать при условии, что не требуется сохранить 
первоначальный порядок следования строк. Это позволит применить 
для удаления дубликатов более простую и эффективную по сравнению 
с другими операцию поиска с заменой. 

Чтобы удалить дубликаты строк после сортировки, можно использо¬ 
вать следующее регулярное выражение и замещающий текст: 

~(•*)(?:(? Лг?\п |\г)\1 )+$ 

Параметры: символам и $ соответствуют границы строк (режим 
«точке соответствуют границы строк» должен быть выключен) 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуНюп, КиЪу 

Замещающий текст: 

$1 

Диалекты замещающего текста: .МЕТ, ^ѵа, ^ѵаЗсгірѣ, Регі, РНР 

\1 

Диалекты замещающего текста: Руііюп, КиЪу 


1 Ассоциативные массивы. - Прим. перев. 
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Для совпадения с двумя или более дубликатами строк, следующими 
друг за другом, в этом регулярном выражении используются сохраняю¬ 
щая группа и обратная ссылка (помимо других ингредиентов). В заме¬ 
щающем тексте используется обратная ссылка, которая вставляет пер¬ 
вую строку обратно в текст. В рецепте 3.15 приводится пример программ¬ 
ного кода, который можно использовать для реализации этого решения. 

Решение 2: оставить в неотсортированном файле 
последнее вхождение каждой повторяющейся строки 

В случае использования текстового редактора, в котором отсутствует 
возможность сортировать строки, или если важно сохранить ориги¬ 
нальный порядок следования строк, удалить дубликаты поможет сле¬ 
дующее решение, даже если повторяющиеся строки разделены други¬ 
ми строками: 

Д[Лг\п]0(?:\г?\п|\г)(?=.*Л1$) 

Параметры: точке соответствуют границы строк, символам Л и $ соот¬ 
ветствуют границы строк 

Диалекты: .МЕТ, Заѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЪу 

Ниже приводится то же самое решение для стандартного диалекта 
ЗаѵаВсгірІ, которое не требует включения режима «точке соответству¬ 
ют границы строк»: 

“(.*)(?:\г?\п|\г)(?=[\з\3]*Л1$) 

Параметры: символам и $ соответствуют границы строк (режим 
«точке соответствуют границы строк» должен быть выключен) 
Диалекты: .МЕТ, Заѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуЙюп, КиЪу 

Замещающий текст: 

(Пустая строка , то есть ничего.) 

Диалекты замещающего текста: не применимо в данном случае 

Решение 3: оставить в неотсортированном файле 
первое вхождение каждой повторяющейся строки 

Если требуется сохранить первое вхождение из каждой группы повто¬ 
ряющихся строк, необходимо использовать иной подход. Сначала при¬ 
ведем регулярное выражение и замещающий текст, которые мы будем 
использовать: 

"(Г\г\п]*)$(. *?)(?: (?:\г?\п|\г)\1$)+ 

Параметры: точке соответствуют границы строк, символам Л и $ соот¬ 
ветствуют границы строк 

Диалекты: .МЕТ, Заѵа, ХКе^Ехр, РСКЕ, Регі, РуІЪоп, КиЪу 

Чтобы преодолеть несовместимость этого регулярного выражения со 
стандартным диалектом ^ѵаЗсгір! из-за отсутствия в нем поддержки 
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режима «точке соответствуют границы строк», необходимо внести пару 
изменений: 

~(• *)$([\з\3]*?)(?:(?:\г?\п|\г)\1$) + 

Параметры: символам и $ соответствуют границы строк (режим 
«точке соответствуют границы строк» должен быть выключен) 
Диалекты: .МЕТ, ^ѵа, Лѵа8сгірІ, РСКЕ, Регі, Руіііоп, КиЬу 

Замещающий текст: 

$ 1$2 

Диалекты замещающего текста: .МЕТ, ^ѵа, ^ѵаЗсгірІ, Регі, РНР 

\ 1\2 

Диалекты замещающего текста: РуІЬоп, КиЬу 

В отличие от регулярных выражений в решениях 1 и 2, эта версия не 
может удалить все дубликаты строк в ходе одной операции поиска с за¬ 
меной. Вам потребуется постоянно повторять операцию «заменить все», 
пока регулярное выражение не перестанет обнаруживать совпадения, 
то есть пока в тексте не останется повторяющихся строк. Дополнитель¬ 
ные подробности приводятся в разделе «Обсуждение» в этом рецепте. 

Обсуждение 

Решение 1: сортировка строк и удаление 
смежных дубликатов 

Это регулярное выражение удаляет все повторяющиеся строки, сле¬ 
дующие друг за другом, за исключением первой. Оно не удаляет дубли¬ 
каты, если между ними присутствуют другие строки. Рассмотрим по¬ 
рядок работы выражения поближе. 

Во-первых, символ крышки <~> в начале регулярного выражения совпа¬ 
дает с началом строки. Обычно он совпадает только с началом всего ис¬ 
пытуемого текста, поэтому необходимо включить режим «символам Л 
и $ соответствуют границы строк» (в рецепте 3.4 показано, как уста¬ 
навливать различные режимы в программном коде). Затем конструк¬ 
ция <. *> внутри сохраняющих круглых скобок совпадает со всем содер¬ 
жимым одной строки (даже если строка пустая), а значение сохраняет¬ 
ся как обратная ссылка 1. Чтобы не возникало ошибок, необходимо вы¬ 
ключить режим «точке соответствуют границы строки», в противном 
случае точка со звездочкой совпадут со всем текстом. 

Внутри внешней несохраняющей группы мы использовали конструк¬ 
цию <(?:\г?\п|\г)>, которой соответствуют разделители строк в тексто¬ 
вых файлах, используемые в ^іпсклѵз/МЗЧЮЗ (<\г\п>), в ІШІХ/Ілпих/ 
В8Б/08 X (<\п>) или устаревшей версии Мае 08 (<\г>). Затем обратная 
ссылка <\1> пытается найти совпадение со строкой, сопоставление с ко¬ 
торой только что было завершено. Если в этой позиции не будет найдена 
та же самая строка, попытка сопоставления с регулярным выражением 
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терпит неудачу и механизм регулярных выражений перемещается 
в следующую позицию. Если совпадение обнаруживается, квантифика¬ 
тор <+> выполняет повтор группы (составленной из последовательности 
разрыва строки и обратной ссылки 1), чтобы попытаться найти совпаде¬ 
ние с дополнительными дубликатами строк. 

Наконец, мы использовали знак доллара в конце регулярного выраже¬ 
ния, чтобы проверить совпадение с концом строки в тексте. Это гаран¬ 
тирует совпадение только с идентичными строками, но не со строками, 
начинающимися с тех же символов, которые составляют содержимое 
предыдущей строки. 

Поскольку выполняется операция поиска с заменой, из текста удаляет¬ 
ся каждое совпавшее вхождение (включая оригинальную строку и раз¬ 
делители строк). Замещающий текст содержит обратную ссылку 1, ко¬ 
торая вставляет оригинальную строку обратно в текст. 

Решение 2: оставить в неотсортированном файле 
последнее вхождение каждой повторяющейся строки 

Это решение несколько отличается от решения 1, которое отыскивает 
дубликаты строк, только если они следуют непосредственно друг за 
другом. Во-первых, в версии для диалектов, отличных от ЛѵаЗсгірІ;, 
в данном решении точка внутри сохраняющей группы заменена кон¬ 
струкцией <Г\г\п]> (совпадает с любым символом, кроме разрыва стро¬ 
ки) и включен режим «точке соответствуют границы строк». Сделано 
это потому, что далее в регулярном выражении точка используется 
с целью обеспечить совпадение с любым символом, включая разрывы 
строк. Во-вторых, для поиска дубликатов строки, которые могут встре¬ 
титься далее в испытуемом тексте, была добавлена опережающая про¬ 
верка. Поскольку опережающая проверка не поглощает символы, регу¬ 
лярное выражение всегда будет совпадать с единственной строкой (вме¬ 
сте с завершающим ее разрывом строки), которая повторно встречается 
ниже в испытуемом тексте. Замена всех совпадений пустыми строками 
удалит все дубликаты строк, при этом нетронутыми останутся только 
последние вхождения. 

Решение 3: оставить в неотсортированном файле 
первое вхождение каждой повторяющейся строки 

Ретроспективная проверка поддерживается не так широко, как опере¬ 
жающая, а там, где поддерживается, она может оказаться не в состоя¬ 
нии заглядывать назад настолько далеко, как это необходимо. Поэтому 
регулярное выражение в решении 3 концептуально отличается от регу¬ 
лярного выражения в решении 2. Вместо поиска строк, которые уже 
встречались выше (что можно было бы сравнить с тактикой решения 2), 
это регулярное выражение совпадает со строкой, с первым дубликатом 
этой строки, который встречается ниже в тексте, и всеми строками 
между ними. Оригинальная строка сохраняется как обратная ссылка 1, 
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а строки между дубликатами (если таковые вообще имеются) - как об¬ 
ратная ссылка 2. Операция замещения совпадения обеими обратными 
ссылками 1 и 2 возвращает в текст те части совпадения, которые требу¬ 
ется сохранить, и отбрасывает строку-дубликат и предшествующий ей 
разрыв строки. 

Этот альтернативный подход таит в себе две проблемы. Во-первых, так 
как каждое совпадение с дубликатами строк может включать строки, 
находящиеся между ними, вполне вероятно, что среди них окажутся 
другие строки, которые также могут повторяться, но будут пропущены 
в процессе выполнения операции замены. Во-вторых, если одна и та же 
строка встречается в тексте более двух раз, то регулярное выражение 
сначала совпадет с первым и со вторым дубликатами, но все последую¬ 
щие дубликаты будут восприниматься им как другие наборы дублика¬ 
тов, которые соответствуют регулярному выражению по мере продви¬ 
жения по тексту. Вследствие этого операция замены в лучшем случае 
удалит только каждое второе вхождение той или иной строки. Чтобы 
ликвидировать эти проблемы и гарантировать удаление всех дублика¬ 
тов, необходимо выполнять операцию поиска с заменой для всего испы¬ 
туемого текста, пока регулярное выражение не перестанет обнаружи¬ 
вать совпадения. Рассмотрим, как будет работать это регулярное выра¬ 
жение применительно к следующему тексту: 

ѵаіиеі 

ѵа1ие2 

ѵа1ие2 

ѵаІиеЗ 

ѵаІиеЗ 

ѵаіиеі 

ѵаіие2 

Для удаления всех дубликатов строк из этого текста потребуется вы¬ 
полнить три прохода. Результаты каждого из проходов приводятся 
в табл. 5.1. 

Таблица 5.1. Результаты операции поиска с заменой после каждого прохода 


Проход 1 

Проход 2 

Проход 3 

Окончательный текст 

г ѵа1ие1 

ѵаіиеі 

ѵаіиеі 

ѵаіиеі 

ѵа1ие2 

: ѵа1ие2 

: ѵа1ие2 

ѵа1ие2 

ѵаіие2 

ѵа1-ие2-...і 

ѵаІиеЗ 

ѵаІиеЗ 

ѵаІиеЗ 

1 ѵаІиеЗ 



ѵаІиеЗ 

ѵаІцеЗ-і 



ѵаі-иеі 

ѵа1ие2 



ѵа1ие2 




Одно совпадение/ 

Два совпадения/ 

Одно совпадение/ 

Дубликатов не оста- 

замена 

замены 

замена 

лось 
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См. также 

В рецепте 5.8 демонстрируется, как отыскивать повторяющиеся слова. 

В рецепте 3.19 приводятся примеры программного кода, разбивающего 
строку с использованием регулярного выражения, демонстрирующие 
альтернативный подход к удалению повторяющихся строк, где регу¬ 
лярное выражение играет лишь вспомогательную роль. Воспользовав¬ 
шись регулярным выражением, совпадающим с разрывами строк (та¬ 
ким как <\г?\п|\г>) в качестве разделителя для операции разбиения, 
легко можно получить список всех строк, имеющихся в испытуемом 
тексте. Затем можно выполнить цикл по этому списку и выбрать из не¬ 
го уникальные строки с помощью объекта-хеша, отвергающего дубли¬ 
каты прежде встретившихся строк. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 объясняется, как искать совпаде¬ 
ния с непечатаемыми символами. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.4 говорится, что точке соответствуют лю¬ 
бые символы. В рецепте 2.5 обсуждаются якорные метасимволы. В ре¬ 
цепте 2.8 описывается применение оператора выбора. В рецепте 2.9 рас¬ 
сказывается о группировке. В рецепте 2.10 обсуждаются обратные 
ссылки. В рецепте 2.12 объясняется, как организовать сопоставление 
с повторяющимися комбинациями символов. В рецепте 2.21 демонст¬ 
рируется, как вставлять текст, совпавший с сохраняющей группой, 
в текст замены. 

5.10. Совпадение с полными строками, 
содержащими определенное слово 

Задача 

Необходимо обеспечить совпадение с любыми строками, содержащими 
слово е г го г в любом месте внутри этих строк. 

Решение 

*\Ьеггог\Ь.*$ 

Параметры: нечувствительность к регистру символов, символам Л и $ 
соответствуют границы строк (режим «точке соответствуют гра¬ 
ницы строк» должен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

Часто бывает удобно находить совпадения с целыми строками для их 
отбора или удаления. Мы начнем наши попытки отыскать совпадение 
с любой строкой, содержащей слово еггог, с выражения <\Ьеггог\Ь>. Как 
описывалось в рецепте 2.6, метасимволы границы слова, находящиеся 
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с обоих концов регулярного выражения, гарантируют, что совпадение 
будет обнаруживаться с последовательностью символов «еггог», только 
когда она представляет собой отдельное слово. 

Чтобы расширить область совпадения с регулярным выражением до 
полной строки, добавим конструкцию <.*> с обоих концов. Последова¬ 
тельности точки со звездочкой соответствуют ноль или более символов 
внутри текущей строки. Звездочка является максимальным квантифи¬ 
катором, поэтому она обеспечит совпадение максимально возможной 
длины. Первой точке со звездочкой будет соответствовать часть строки 
до последнего вхождения слова «еггог», а второй точке со звездочкой - 
все остальные символы, не являющиеся разрывами строк, следующие 
за искомым словом. 

Наконец, поместим символ крышки и знак доллара в начало и в конец 
регулярного выражения соответственно, чтобы обеспечить совпадение 
с полной строкой. Строго говоря, якорный метасимвол <$> в конце выра¬ 
жения не нужен, потому что точка и максимальная звездочка всегда 
обнаруживают совпадение только до конца строки. Однако знак долла¬ 
ра не повредит и сделает регулярное выражение немного более очевид¬ 
ным. Добавление якорных метасимволов в регулярные выражения 
там, где это уместно, иногда может помочь избежать неожиданностей, 
поэтому этот прием стоит взять на вооружение. Следует заметить, что, 
в отличие от знака доллара, символ крышки в начале регулярного вы¬ 
ражения не всегда бывает избыточен, так как он гарантирует, что регу¬ 
лярное выражение будет совпадать только с полными строками, даже 
когда по каким-то причинам поиск начинается с середины строки. 

Не следует забывать, что три ключевых метасимвола, используемые 
для ограничения совпадения с единственной строкой (якорные мета¬ 
символы <~> и <$> и точка), не имеют фиксированного значения. Чтобы 
переориентировать их на работу со строками, следует включить режим, 
позволяющий метасимволам Л и $ совпадать с границами строк, а ре¬ 
жим, когда точке соответствуют границы строк, следует отключить. 
В рецепте 3.4 показано, как переключать эти режимы в программном 
коде. В случае использования диалектов ЗаѵаВсгірІ; или КиЪу одним ре¬ 
жимом, который надо контролировать, становится меньше, потому что 
в ЗаѵаВсгірі отсутствует режим, позволяющий точке совпадать с гра¬ 
ницами строк, а в КиЬу символ крышки и знак доллара всегда совпада¬ 
ют с границами строк. 

Варианты 

Чтобы отыскать строки, содержащие любое из нескольких слов, можно 
использовать конструкцию выбора: 

~. *\Ь(опе11:\л/о1 1:Гі гее)\Ь. *$ 

Параметры: нечувствительность к регистру символов, символам " и $ 
соответствуют границы строк (режим «точке соответствуют гра¬ 
ницы строк» должен быть выключен) 
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Диалекты: ^ЕТ, ^ѵа, ^ѵаЗсгірІ, РОКЕ, Регі, РуіЬоп, КиЪу 

Это регулярное выражение совпадает с любой строкой, содержащей хо¬ 
тя бы одно из трех слов: «опе», «ілѵо» или «ІЬгее». Круглые скобки, ок¬ 
ружающие слова, служат двум целям. Во-первых, они ограничивают 
область действия конструкции выбора и, во-вторых, сохраняют в обрат¬ 
ной ссылке 1 слово, которое фактически было встречено в строке. Если 
в строке присутствует более чем одно из этих слов, в обратной ссылке бу¬ 
дет сохранено слово, стоящее ближе к правому концу строки. Это обу¬ 
словлено тем, что квантификатор звездочка, расположенный перед круг¬ 
лыми скобками, является максимальным и будет расширять совпадение 
с точкой до тех пор, пока это возможно. Если сделать звездочку мини¬ 
мальной, как в выражении <''.*?\Ь(опе|1\л/о|1Пгее)\Ь.*$>, обратная ссылка 1 
будет содержать слово из списка, стоящее ближе к левому концу строки. 

Чтобы отыскать строки, которые должны содержать сразу несколько 
искомых слов, можно использовать опережающую проверку: 

~(?=. *?\Ьопе\Ь)(?=. *?\Ы:\л/о\Ь)(?=. *?\Ы:Мгее\Ь). +$ 

Параметры: нечувствительность к регистру символов, символам Л и $ 
соответствуют границы строк (режим «точке соответствуют гра¬ 
ницы строк» должен быть выключен) 

Диалекты: ^ЕТ, ^ѵа, ЛѵаЗсгірѣ, РСКЕ, Регі, РуЙюп, КиЪу 

Чтобы обеспечить совпадение со строками, содержащими в себе три 
обязательных слова, в этом регулярном выражении используется пози¬ 
тивная опережающая проверка. Конструкция <.+> в конце обеспечивает 
фактическое совпадение со строкой после того, как опережающие про¬ 
верки определят, что строка соответствует требованиям. 

См. также 

Рецепт 5.11, где показано, как обеспечить совпадение с полными стро¬ 
ками, не содержащими определенное слово. 

Если не требуется совпадение с целыми строками, загляните в ре¬ 
цепт 5.1, где описывается, как отыскать определенное слово, и в ре¬ 
цепт 5.2, где объясняется, как отыскать любое из множества слов. 

Рецепт 3.21, где приводятся примеры программного кода, выполняю¬ 
щего построчный поиск и упрощающего процесс поиска и идентифика¬ 
ции строк в тексте. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.4 говорится, что точке соответству¬ 
ют любые символы. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.6 говорится о границах слов. В рецепте 2.8 описывается 
применение оператора выбора. В рецепте 2.9 рассказывается о группи¬ 
ровке. В рецепте 2.12 объясняется, как организовать сопоставление 
с повторяющимися комбинациями символов. В рецепте 2.16 рассказы¬ 
вается об опережающих и ретроспективных проверках. 
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5.11. Совпадение с полными строками, 
не содержащими определенное слово 

Задача 

Необходимо обеспечить совпадение с полными строками, не содержа¬ 
щими слово еггог. 

Решение 

~(?:(?!\Ье г го г\Ь).)*$ 

Параметры: нечувствительность к регистру символов, символам " и $ 
соответствуют границы строк (режим «точке соответствуют гра¬ 
ницы строк» должен быть выключен) 

Диалекты: ^ЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуѣЬоп, КиЪу 


Обсуждение 

Чтобы обеспечить совпадение со строкой, не содержащей некоторую по¬ 
следовательность символов, можно использовать негативную опережаю¬ 
щую проверку (описывается в рецепте 2.16). Обратите внимание, что 
в этом регулярном выражении негативная опережающая проверка и точ¬ 
ка объединены в повторяющуюся несохраняющую группу. Это обеспе¬ 
чивает проверку отсутствия совпадения с подвыражением <\Ьеггог\Ь> 
в каждой позиции строки. Якорные метасимволы <~> и <$>, находящиеся 
по обоим концам регулярного выражения, гарантируют совпадение со 
всей строкой целиком и дополнительно препятствуют группе, вклю¬ 
чающей негативную опережающую проверку, ограничиться проверкой 
только части строки. 

Режимы, применяемые к этому регулярному выражению, определяют, 
будет ли совпадение включать в себя весь испытуемый текст или только 
одну строку. В случае когда включен режим «символам Л и $ соответст¬ 
вуют границы строк» и выключен режим «точке соответствуют грани¬ 
цы строк», это выражение действует, как только что было описано, 
и совпадает с единственной строкой. Если изменить эти два режима на 
обратные, регулярное выражение будет совпадать с любым текстом це¬ 
ликом, если в нем отсутствует слово «еггог». 





Выполнение негативной опережающей проверки в каждой позиции 
строки или текста слишком неэффективно. Это решение может ис¬ 
пользоваться только в случаях, когда регулярное выражение явля¬ 
ется единственным доступным инструментом, например в приложе¬ 
нии, которое нельзя изменить. При создании собственного прило¬ 
жения обратите внимание на рецепт 3.21, где представлено намного 
более эффективное решение, основанное на применении программ¬ 
ного кода для построчного поиска. 
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См. также 

Рецепт 5.10, где показано, как обеспечить совпадение с полными стро¬ 
ками, содержащими определенное слово. 

Рецепт 3.21, где приводятся примеры программного кода, выполняю¬ 
щего построчный поиск и упрощающего процесс поиска и идентифика¬ 
ции строк в тексте. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.4 говорится, что точке соответству¬ 
ют любые символы. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.6 говорится о границах слов. В рецепте 2.9 рассказывается 
о группировке. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.16 рас¬ 
сказывается об опережающих и ретроспективных проверках. 

5.12. Удаление ведущих и завершающих 
пробельных символов 

Задача 

Необходимо удалить из строки ведущие и завершающие пробелы. Это 
может понадобиться, например, для подготовки данных, отправлен¬ 
ных пользователем в составе веб-формы, к проверке с помощью одного 
из регулярных выражений, представленных в главе 4. 

Решение 

Чтобы сделать решение максимально простым и быстрым, лучше всего 
использовать два регулярных выражения, одно из которых будет уда¬ 
лять ведущие пробельные символы, а другое - завершающие. 

Ведущие пробельные символы: 

\А\з+ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

Лз+ 

Параметры: нет (режим «символам Л и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуІЬоп 

Завершающие пробельные символы: 

\з+\2 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, РСКЕ, Регі, РуІЬоп, КиЪу 
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\з+$ 

Параметры: нет (режим «символам " и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: .ЫЕТ, Заѵа, Заѵа8сгірІ, РСКЕ, Регі, РуІЬоп 

Достаточно просто заменить пустыми строками совпадения, найден¬ 
ные одним из выражений, совпадающих с «ведущими пробельными 
символами», и одним из выражений, совпадающих с «завершающими 
пробельными символами». Как это сделать, демонстрируется в рецеп¬ 
те 3.14. В обоих случаях необходимо заменить только первое найденное 
совпадение, поскольку эти регулярные выражения совпадают со всеми 
ведущими или завершающими пробельными символами сразу. 

Обсуждение 

Удаление ведущих и завершающих пробельных символов - это доста¬ 
точно простая, но часто встречающаяся задача. Каждое из представ¬ 
ленных регулярных выражений делится на три части: символьный 
класс в сокращенной форме записи, совпадающий с любым пробель¬ 
ным символом (<\з>), квантификатор, повторяющий символьный класс 
один или более раз (<+>), и якорный метасимвол, проверяющий совпаде¬ 
ние с началом или концом строки. Метасимволы <\А> и <~> совпадают 
с началом строки, а <\2> и <$> - с концом. 

Здесь представлено по два варианта регулярных выражений для поис¬ 
ка ведущих и завершающих пробельных символов из-за несовместимо¬ 
сти диалектов КиЬу и Заѵабсгірі. При использовании других диалектов 
можно выбирать любой из вариантов. Версии с метасимволами Г> и <$> 
будут неправильно работать в КиЪу, потому что в этом диалекте данные 
метасимволы всегда совпадают с началом и концом любой строки. Заѵа- 
8сгір1 не поддерживает якоря <\А> и <\2>. 

Многие языки программирования предоставляют специальную функ¬ 
цию, обычно называемую Іігіт или зігір, которая может удалять веду¬ 
щие и завершающие пробельные символы. В табл. 5.2 показано, как 
использовать эту встроенную функцию или метод в различных языках 
программирования. 

Таблица 5.2. Стандартные функции для удаления ведущих 

и завершающих пробельных символов 


Язык(и) программирования 

Пример использования 

С#, ѴВ.ЫЕТ 

8Тгіпд.Тгт([сІіагз]) 

Заѵа, ^ѵабсгірі 

5ігіпд.1гт() 

РНР 

Іігіт ($зТгіпд) 

РуіЬоп, КиЪу 

зігіпд. зігір() 
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В Регі отсутствует эквивалентная функция, но ее легко можно создать 
самому, используя регулярные выражения, представленные выше 
в этом рецепте: 

зиЬ Іігіт { 

ту $$ігіпд = зіііі; 

$зігіпд =" з/~\з+//; 

$31: гіпд =~ з/\з+$//; 
геіигп $зі:гіпд ; 

} 

В ^ѵа8сгірІ метод зігіпд. 1гіт() появился совсем недавно. В старых 
браузерах (до версий ІиЬегпеі; Ехріогег 9 и Гіге&х 3.5) его можно реали¬ 
зовать, как показано ниже: 

// Добавить метод ігіт для браузеров, не имеющих его 
ІГ (! Зігіпд.ргоіоіуре.ігіт) { 

Зігіпд.ргоіоіуре.ігіт = іипсііоп() { 

геіигп ІГііз. гер1асе(/'*\з+/. "”). гер1асе(/\з+$/, 


В обоих языках программирования, Регі и ^ѵабсгірі, метасимволу 
<\з> соответствует любой символ, определяемый стандартом Юникод 
как пробельный, в дополнение к символам пробела, табуляции, пе¬ 
ревода строки и возврата каретки, которые наиболее часто рассмат¬ 
риваются как пробельные. 


В действительности существует масса различных способов записать ре¬ 
гулярное выражение, которое поможет усекать строку. Однако при ра¬ 
боте с длинными строками (когда производительность имеет самое боль¬ 
шое значение) они неизменно оказываются медленнее, чем решение, 
опирающееся на использование двух простых регулярных выражений. 
Ниже приводятся некоторые из наиболее типичных альтернативных ре¬ 
шений, с которыми можно столкнуться на практике. Все они написаны 
на ^ѵавсгірі;, а поскольку в стандартном ЛѵаЗсгірі; отсутствует режим 
«точке соответствуют границы строк», совпадение с любым единичным 
символом, включая разрывы строк, обеспечивается конструкцией 
<[\з\3]>. В других диалектах вместо этой конструкции можно использо¬ 
вать точку и включить режим «точке соответствуют границы строк». 

зігіпд. гер1асе(Л\з+|\з+$/д, 

Это, пожалуй, наиболее часто используемое решение. Оно объединя¬ 
ет два простых регулярных выражения в одну конструкцию выбора 
(рецепт 2.8) и использует флаг /д («^ІоЬаІ» - глобальный), чтобы по¬ 
лучить возможность заменить все, а не только первые совпадения 
(совпадений будет два - с ведущими и завершающими пробельными 
символами в строке). Это неплохое решение, но при работе с длинны- 


}; 


} 

а + 
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ми строками оно медленнее решения, опирающегося на применение 
двух простых регулярных выражений, так как для каждой позиции 
приходится проверять две альтернативы. 

зігіпд.гер1асе(/Лз*([\з\3]*?)\5*$/ І "$Г) 

Это регулярное выражение сопоставляется со всей строкой и сохра¬ 
няет последовательность от первого до последнего непробельного 
символа (если таковые присутствуют) в обратной ссылке 1. После за¬ 
мены всей строки содержимым обратной ссылки 1 останется усечен¬ 
ная версия строки. 

Этот подход концептуально проще, но минимальный квантифика¬ 
тор внутри сохраняющей группы заставляет механизм регулярных 
выражений выполнить массу дополнительной работы (то есть воз¬ 
вратов), что обусловливает более низкую скорость работы этого ре¬ 
шения на длинных строках. 

Давайте отступим на шаг назад и посмотрим, как это выражение ра¬ 
ботает. После того как в процессе сопоставления механизм регуляр¬ 
ных выражений войдет в сохраняющую группу, минимальный 
квантификатор <*?> требует, чтобы символьный класс <[\з\3]> повто¬ 
рялся минимально возможное число раз. Поэтому при каждом про¬ 
ходе механизм регулярных выражений добавляет в совпадение один 
символ и останавливается, пытаясь сопоставить оставшуюся часть 
шаблона (<\з*$>). Если эта попытка терпит неудачу, потому что где-то 
за текущей позицией в строке присутствует непробельный символ, 
механизм добавляет к совпадению с классом еще один символ, об¬ 
новляет обратную ссылку и опять повторяет попытку сопоставления 
оставшейся части шаблона. 

з1;гіпд.гер1асе(/Лз*([\з\3]*\3)?\з*$/ > "$Г) 

Это решение напоминает предыдущее, но в нем из соображений про¬ 
изводительности минимальный квантификатор заменен максималь¬ 
ным. Чтобы гарантировать совпадение сохраняющей группы вплоть 
до последнего непробельного символа, в конец ее потребовалось до¬ 
бавить метасимвол <\5>. Однако из-за того что регулярное выражение 
должно совпадать со строками, состоящими только из пробельных 
символов, вся сохраняющая группа сделана необязательной добав¬ 
лением квантификатора <?> после нее. 

Здесь максимальная звездочка в конструкции <[\з\3]*> повторяет 
шаблон «любой символ», пока не будет достигнут конец строки. За¬ 
тем механизм регулярных выражений выполняет возвраты по одно¬ 
му символу, начиная с конца строки, пока не будет обнаружено сов¬ 
падение со следующим метасимволом <\3> или пока в процессе воз¬ 
вратов не будет достигнут первый символ, совпавший с сохраняю¬ 
щей группой (после чего группа пропускается). 

Если число завершающих пробельных символов не превышает дли¬ 
ну текста, совпавшую к данному моменту, то в общем случае это ре¬ 
шение оказывается быстрее предыдущего, где используется мини- 
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мальный квантификатор. Однако и это решение нельзя сравнить по 
производительности с решением, опирающимся на использование 
двух простых регулярных выражений. 

зіігіпд.гер1асе(/Лз*(\5*(?:\з+\3+)*)\з*$/ І ”$Г) 

Это довольно часто встречающееся решение, но у него нет никаких 
преимуществ, потому что оно медленнее всех остальных решений, 
показанных выше. Это регулярное выражение похоже на два преды¬ 
дущих в том смысле, что совпадает со всей строкой и замещает ее той 
частью, которую требуется сохранить, но так как внутренняя несо¬ 
храняющая группа при каждом повторении совпадает с единствен¬ 
ным словом, механизму регулярных выражений приходится выпол¬ 
нить множество мелких шагов. Проигрыш этого решения в произво¬ 
дительности едва ли будет заметен при обработке коротких строк, но 
на очень длинных строках, содержащих большое число слов, это ре¬ 
гулярное выражение может превратиться в «узкое место». 

Некоторые реализации механизмов регулярных выражений содержат 
оптимизации, изменяющие внутренние процессы сопоставления, опи¬ 
санные здесь, вследствие чего эти решения могут показывать производи¬ 
тельность чуть выше или чуть ниже, чем мы предположили. Однако про¬ 
стое решение, опирающееся на использование двух регулярных выраже¬ 
ний, неизменно показывает приличную производительность на строках 
любой длины и с любым содержимым, и поэтому оно является лучшим. 

См. также 

Рецепт 5.13, где объясняется, как заменить повторяющиеся пробель¬ 
ные символы единственным пробелом. 

Приемы, использовавшиеся в регулярных выражениях и в тексте заме¬ 
ны в этом рецепте, обсуждаются в главе 2. В рецепте 2.3 рассказывает¬ 
ся о символьных классах. В рецепте 2.5 обсуждаются якорные мета¬ 
символы. В рецепте 2.8 описывается применение оператора выбора. 
В рецепте 2.9 рассказывается о группировке. В рецепте 2.12 объясняет¬ 
ся, как организовать сопоставление с повторяющимися комбинациями 
символов. В рецепте 2.13 объясняется, как воздействуют на механизм 
возвратов максимальные и минимальные квантификаторы. В рецеп¬ 
те 2.21 демонстрируется, как вставлять текст, совпавший с сохраняю¬ 
щей группой, в текст замены. 

5.13. Замена повторяющихся пробельных 
символов единственным пробелом 

Задача 

Продолжая очищать ввод пользователя от лишних символов, требуется 
заменить повторяющиеся пробельные символы единственным пробе- 
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лом. Любые символы табуляции, разрыва строки или другие пробель¬ 
ные символы также должны замещаться пробелом. 

Решение 

Чтобы решить эту задачу, достаточно просто заменить все совпадения 
со следующими регулярными выражениями единственным пробелом. 
В рецепте 3.14 показано, как реализовать это решение в программном 
коде. 

Удаление любых пробельных символов 

\з+ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵаВсгірІ, РОКЕ, Регі, Руііюп, КиЪу 

Удаление горизонтальных пробельных символов 

О\1:\хА0]+ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуНюп, КиЪу 1.8 

[ *\Т\и00А0]+ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РуІЬоп, КиЪу 1.9 

Ѵі+ 

Параметры: нет 

Диалекты: РСКЕ 7.2, Регі 5.10 

Обсуждение 

Довольно часто в процедуре очистки ввода бывает необходимо заменить 
повторяющиеся пробельные символы единственным пробелом. Напри¬ 
мер, при отображении документов НТМЬ повторяющиеся пробельные 
символы просто игнорируются (с некоторыми исключениями). Удале¬ 
ние повторяющихся пробельных символов может помочь уменьшить 
размеры некоторых страниц (или хотя бы разделов страниц) без каких- 
либо отрицательных последствий. 

Удаление любых пробельных символов 

В этом решении любые последовательности пробельных символов (раз¬ 
рывы строк, символы табуляции, пробелы и прочие) замещаются един¬ 
ственным символом пробела. Поскольку квантификатор <+> повторяет 
символьный класс, совпадающий с любым пробельным символом (<\з>), 
один или более раз, даже единственный символ табуляции, например, 
будет замещен пробелом. Если заменить квантификатор <+> на <{2, }>, за¬ 
мещаться будут только последовательности из двух или более пробель¬ 
ных символов. Это может привести к уменьшению числа замен и, как 
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следствие, к увеличению производительности, но в этом случае оста¬ 
нутся незамеченными символы табуляции или разрывы строк, кото¬ 
рые в противном случае были бы замещены символами пробела. Поэто¬ 
му какой подход считать лучшим, зависит от желаемого результата. 

Удаление горизонтальных пробельных символов 

Это решение действует точно так же, как и предыдущее, за исключени¬ 
ем того, что оставляет разрывы строк нетронутыми. Замещаются толь¬ 
ко символы табуляции, пробелы и неразрывные пробелы. На мнемони¬ 
ку НТМЬ, обозначающую неразрывный пробел (&пЬзр;), это не распро¬ 
страняется. 

Диалекты РСКЕ 7.2 и Регі 5.10 включают сокращение <\Н> символьного 
класса, который специально определен для поиска горизонтальных 
пробельных символов. Он также совпадает с некоторыми необычными 
горизонтальными пробельными символами. 

Применение последовательности <\хА0> для поиска совпадений с нераз¬ 
рывными пробелами в КиЬу 1.9 может привести к ошибке «іпѵаіісі 
тиІІіЪуІе езсаре» (недопустимое определение многобайтного символа) 
или к другим ошибкам, связанным с ней, потому что она обозначает 
символ за пределами диапазона А8СП от <\х00> до <\х7Р>. Поэтому ис¬ 
пользуйте последовательность <\и00А0>. 

См. также 

Рецепт 5.12, где объясняется, как удалить ведущие и завершающие 
пробельные символы. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 объясняется, как искать совпаде¬ 
ния с непечатаемыми символами. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.12 объясняется, как организовать сопо¬ 
ставление с повторяющимися комбинациями символов. 

5.14. Экранирование метасимволов 
регулярных выражений 

Задача 

Необходимо реализовать возможность использовать в регулярных вы¬ 
ражениях строковые литералы, получаемые от пользователя или из 
других источников. Однако прежде чем встраивать эту строку в регу¬ 
лярное выражение, необходимо экранировать все метасимволы регу¬ 
лярных выражений, чтобы избежать появления непредвиденных эф¬ 
фектов. 
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Решение 

После добавления символа обратного слэша перед каждым символом, 
который потенциально может иметь специальное назначение в регуляр¬ 
ном выражении, можно безопасно использовать получившийся шаблон 
для поиска литеральной последовательности символов. Все языки про¬ 
граммирования, описываемые в этой книге, за исключением Заѵа8сгірІ, 
имеют встроенные функции или методы, выполняющие эту задачу (пе¬ 
речислены в табл. 5.3). Однако ради полноты обсуждения мы покажем, 
как решить эту задачу с помощью собственного регулярного выраже¬ 
ния даже в языках, имеющих готовые решения. 

Встроенные решения 

В табл. 5.3 перечислены встроенные функции, предназначенные для 
решения этой задачи. 

Таблица 5.3. Встроенные функции , выполняющие экранирование 

метасимволов регулярных выражений 


Язык программирования 

Функция 

С#, ѴВ.ЫЕТ 

Яедех.ЕзсареСзГг) 

^ѵа 

РаШегп.диоТеСзгг) 

ХКе&Ехр 

ХЯедЕхр.езсаре(5Тг) 

Регі 

диоТетеі:а(5Тг) 

РНР 

ргед_дио1:е(5^г 1 [ беіітііег ]) 

РуѣЬоп 

ге.езсар е(5іг) 

КиЪу 

Яедехр.езсаре(5^г) 


Обратите внимание на отсутствие языка ^ѵаЗсгірІ (без использования 
ХКе&Ехр) в этом списке - в нем отсутствует встроенная функция, пред¬ 
назначенная для этой цели. 

Регулярное выражение 

Несмотря на то, что лучше использовать встроенное решение, если оно 
существует, эту же задачу можно решить с помощью следующего регу¬ 
лярного выражения и замещающего текста (приводится ниже). При 
этом необходимо выполнить замещение всех совпадений, а не только 
первого. В рецепте 3.15 приводится программный код, производящий 
замещение совпадений строкой, которая содержит обратную ссылку. 
Обратная ссылка необходима, чтобы вернуть в строку совпавший спе¬ 
циальный символ с предшествующим ему символом обратного слэша: 

[[\]{}()*+?Л\Г$Ѵ,&#\з] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, Лѵа8сгір1, РОКЕ, Регі, РуіЬоп, КиЪу 
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Замещающий текст 

Следующие строки с замещающим текстом содержат литерал обрат¬ 
ного слэша. Строки приводятся без дополнительных символов об¬ 
ратного слэша, которые могут потребоваться для экранирования об¬ 
ратных слэшей при их использовании в строковых литералах в не¬ 
которых языках программирования. Подробнее о диалектах заме¬ 
щающего текста рассказывается в рецепте 2.19. 

\$& 

Диалекты замещающего текста: .ИЕТ, ^ѵаЗсгір! 

\$0 

Диалекты замещающего текста: .ЫЕТ, ХКе&Ехр 

\\$& 

Диалект замещающего текста: Регі 

\\$0 

Диалекты замещающего текста: ^ѵа, РНР 

\\\0 

Диалекты замещающего текста: РНР, КиЪу 

\\\& 

Диалект замещающего текста: КиЪу 

\\\9<0> 

Диалект замещающего текста: РуіЬоп 

Пример функции на .ІаѵаЗсгірІ: 

Ниже приводится пример, демонстрирующий, как использовать регу¬ 
лярное выражение и строку замещающего текста для создания стати¬ 
ческого метода ВедЕхр.езсаре() в ^ѵаЗсгірІ: 

ВедЕхр. езсаре = -ЕипсЕіоп ( зі: г) { 

геіигп згг. гер1асе(/[[\]{}()*+?.\\Г$\-,&#\5]/д, "\\$&"): 

}; 

// Проверка метода... 

ѵаг зЕг = "<Не11о Іл/огІР. >"; 

ѵаг езсаресІЗіг = ВедЕхр. езсаре(з1:г); 

аіегі:(евсаресІЗІ: г == "<Не11о\\ \л/ог1с!\\.>”); // -> ігие 

Обсуждение 

Регулярное выражение в этом рецепте помещает все метасимволы 
внутрь единого символьного класса. Рассмотрим каждый из этих сим¬ 
волов и разберемся, почему их следует экранировать. Для одних симво¬ 
лов потребность их экранировать не так очевидна, как для других: 









5.14. Экранирование метасимволов регулярных выражений 


451 


[ { О 

Квадратная скобка <[> создает символьный класс. Фигурная скобка 
<{> создает интервальный квантификатор, а также используется в не¬ 
которых специальных конструкциях, таких как категории Юнико¬ 
да. Круглые скобки <(> и <)> используются для группировки, сохране¬ 
ния и в других специальных конструкциях. 

* + ? 

Эти три символа являются квантификаторами, которые повторяют 
предшествующий им элемент ноль или более, один или более и ноль 
или один раз соответственно. Знак вопроса также используется по¬ 
сле открывающей круглой скобки для образования специальных ви¬ 
дов группировок и других конструкций (то же самое относится 
и к символу звездочки в Регі 5.10 и РСКЕ 7). 

\ I 

Точке соответствует любой символ в испытуемом тексте, обратный 
слэш экранирует специальные символы или делает литерал символа 
специальным, а вертикальная черта обеспечивает возможность вы¬ 
бора между несколькими альтернативами. 

~ $ 

Символ крышки и знак доллара являются якорными метасимвола¬ 
ми, соответствующими началу или концу текста или строки. Кроме 
того, символ крышки может использоваться для инвертирования 
символьного класса. 

Остальные символы, соответствующие регулярному выражению, обре¬ 
тают специальное назначение только в специальных случаях. Они 
включены в список из предосторожности. 

] 

Закрывающая квадратная скобка завершает символьный класс. 
Обычно ее не требуется экранировать, но экранировав ее, можно из¬ 
бежать непреднамеренного закрытия символьного класса, если 
текст, введенный пользователем, вставляется в символьный класс. 
Следует иметь в виду, что при встраивании текста внутрь символь¬ 
ного класса получившееся регулярное выражение не будет совпа¬ 
дать со встроенной строкой; оно будет совпадать с одним из симво¬ 
лов, присутствующих во встраиваемой строке. 

Дефис образует диапазон внутри символьного класса. Он экраниру¬ 
ется здесь, чтобы избежать непреднамеренного создания диапазонов, 
когда встраиваемый текст оказывается внутри символьного класса. 

} 

Закрывающая фигурная скобка завершает интервальные кванти¬ 
фикаторы и некоторые другие специальные конструкции. В боль- 
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шинстве диалектов регулярных выражений фигурная скобка интер¬ 
претируется как обычный символ, если она не замыкает интерваль¬ 
ный квантификатор, поэтому есть вероятность по неосторожности 
создать интервальный квантификатор там, где его не должно быть, 
если не экранировать открывающую и закрывающую фигурные 
скобки при вставке текста в регулярное выражение. 


Запятая используется внутри интервальных квантификаторов, та¬ 
ких как <{1,5}>. Существует вероятность (хотя и небольшая) образо¬ 
вать квантификатор там, где его не было перед вставкой литерально¬ 
го текста в регулярное выражение, если не экранировать запятые. 

& 

Символ амперсанда включен в этот перечень по той причине, что 
в диалекте ^ѵа два амперсанда, следующие друг за другом, обозна¬ 
чают операцию пересечения символьных классов. В других языках 
программирования можно безопасно удалить амперсанд из списка 
символов, которые требуется экранировать, но не будет ошибкой 
и оставить его. 

# и пробельные символы 

Символ решетки и пробельные символы (соответствующие классу 
<\з>) являются метасимволами, только если включен режим свобод¬ 
ного форматирования. Эти символы также не будет ошибкой экра¬ 
нировать в любом случае. 

Что касается замещающего текста, одна из пяти конструкций («$&», 
«\&», «$0», «\0» или «\д<0>») может использоваться для восстановления 
совпавшего символа вместе с символом обратного слэша. В Регі кон¬ 
струкция $& является переменной, использование которой с любым ре¬ 
гулярным выражением приводит к потере его производительности. Ес¬ 
ли переменная $& используется где-то в другом месте программы на 
языке Регі, в этом нет ничего особенного, потому что вы уже заплатили 
полную цену за это. В противном случае лучше будет обернуть все вы¬ 
ражение сохраняющей группировкой и вместо $& использовать в заме¬ 
щающем тексте обратную ссылку $1. 

Варианты 

Как уже объяснялось в разделе «Экранирование блока» в рецепте 2.1, 
можно экранировать целый блок текста с помощью конструкции <\0—\Е>. 
Возможность экранирования блоков поддерживается только в диалек¬ 
тах ^ѵа, РСКЕ и Регі, но даже в этих языках экранирование блока не 
обеспечивает защиту от ошибок. Чтобы обеспечить полную безопас¬ 
ность, все равно потребуется экранировать все вхождения \Е в строке, 
которую предполагается внедрить в регулярное выражение. В боль¬ 
шинстве случаев гораздо проще использовать описанный выше прием, 
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не зависящий от используемого языка программирования, основанный 
на экранировании всех метасимволов регулярных выражений. 

См. также 

Рецепт 2.1, где обсуждается, как обеспечить совпадение с литералами 
символов. Однако список символов, обязательных для экранирования, 
приводимый в этом рецепте, немного короче, потому что в нем не учи¬ 
тываются символы, которые может потребоваться экранировать в ре¬ 
жиме свободного форматирования или в случае, когда они могут встав¬ 
ляться произвольно, при работе с длинными шаблонами. 

В примере решения на ^ѵаЗсгір! в рецепте 5.2 определяется функция, 
экранирующая любые метасимволы регулярных выражений внутри 
слова, переданного для поиска. В ней используется сокращенный спи¬ 
сок специальных символов из рецепта 2.1. 

Приемы, использовавшиеся в регулярных выражениях и в тексте заме¬ 
ны в этом рецепте, обсуждаются в главе 2. В рецепте 2.3 рассказывает¬ 
ся о символьных классах. В рецепте 2.20 объясняется, как вставлять 
совпадения с регулярным выражением в замещающий текст. 




6 

Числа 


Регулярные выражения предназначены для работы с текстом и не спо¬ 
собны интерпретировать строки из цифр как числа. Для регулярного 
выражения 56 - это не число пятьдесят шесть, а строка, содержащая 
два символа, которые отображаются как цифры 5 и 6. Механизм регу¬ 
лярных выражений знает, что это цифры, потому что им соответствует 
класс <\сІ> (рецепт 2.3). Но это все, что он знает. Он не знает, что 56 име¬ 
ет более глубокий смысл, точно так же, как он не знает, что :-) — это не 
просто три знака пунктуации, соответствующие выражению <\р{Р}{3}>. 

Однако числа - одна из наиболее важных разновидностей вводимой ин¬ 
формации, с которыми приходится сталкиваться на практике, и ино¬ 
гда возникает необходимость обрабатывать их с помощью регулярных 
выражений, вместо того чтобы передавать программному коду, когда 
требуется ответить на такой вопрос: «Попадает ли число в диапазон от 
1 до 100?». Поэтому мы посвятили целую главу вопросам сопоставле¬ 
ния регулярных выражений со всеми видами чисел. Сначала мы рас¬ 
смотрим несколько рецептов, которые могут показаться тривиальными, 
но на самом деле объясняют важные базовые понятия. В последующих 
рецептах, где приводятся более сложные регулярные выражения, пред¬ 
полагается, что вы владеете этими основными понятиями. 

6.1. Целые числа 

Задача 

Требуется отыскать различные целые десятичные числа в объемном до¬ 
кументе или проверить, представляет ли строковая переменная целое 
десятичное число. 
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Решение 

Поиск любых положительных целых десятичных чисел в объемном до¬ 
кументе: 

\Ь[0-9]+\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, Руііюп, КиЪу 

Проверка, является ли текстовая строка целым положительным деся¬ 
тичным числом: 

\А[0-9]+\2 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

"[0-9]+$ 

Параметры: нет 

Диалекты: ^ЕТ, Лѵа, ^ѵа8сгір1, РСКЕ, Регі, РуіЬоп 

Поиск любых отдельных целых положительных десятичных чисел 
в объемном документе: 

(?<=" І\5)[ 0-9]+(?=$|\з) 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, КиЬу 1.9 

Для Регі и РуіЬоп необходимо внести изменения в предыдущее реше¬ 
ние, потому что они не поддерживают альтернативы с разной длиной 
совпадений в ретроспективных проверках: 

(?:"|(?<=\з))[0-9]+(?=$|\з) 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, Руѣіюп, КиЬу 1.9 

Поиск любых отдельных целых положительных десятичных чисел 
в объемном документе. При этом допускается попадание ведущих про¬ 
бельных символов в совпадение: 

П\з)([0-9]+)(?=$|\з) 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа, Лѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЪу 

Поиск любых целых десятичных чисел, которым может предшество¬ 
вать знак плюс или минус: 

[+-]?\Ь[0-9]+\Ь 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа, Лѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

Проверка, является ли текстовая строка целым десятичным числом, 
которому может предшествовать знак плюс или минус: 
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\А[+-]?[0-9]+Ѵ 

Параметры: нет 

Диалекты: .ИЕТ, Заѵа, РСКЕ, Регі, РуПюп, КиЬу 

~[ + -]?[0-9]+$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаВсгірѣ, РСКЕ, Регі, РуЙюп 

Поиск любого целого десятичного числа с необязательным знаком. При 
этом допускается наличие пробельного символа между знаком и чис¬ 
лом, но в числах без знака ведущие пробелы не допускаются: 

(С+-]•*)?\Ь[0-9]+\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, Заѵабсгірі;, РСКЕ, Регі, РуНюп, КиЪу 

Обсуждение 

Целое число - это непрерывная последовательность из одной или более 
цифр от нуля до девяти. Это легко можно выразить с помощью символь¬ 
ного класса (рецепт 2.3) и квантификатора (рецепт 2.12): <[0-9]+>. 

■«* 


класс < [0-9]> всегда соответствует одной из 10 цифр в таблице А8СІІ. 
Если заранее известно, что в испытуемом тексте отсутствуют циф¬ 
ры, не входящие в диапазон А8СІІ, можно сэкономить несколько на¬ 
жатий на клавиши и использовать <\с!> вместо <[0-9]>. 

Если заранее неизвестно, включает ли текст цифры, не входящие 
в таблицу А8СІІ, необходимо задуматься над тем, что делать с най¬ 
денными совпадениями и что ожидает получить пользователь, чтобы 
определить, использовать ли метасимвол <\сІ> или символьный класс 
<[0-9]>. Если предполагается преобразовывать текст совпадения с ре¬ 
гулярным выражением в целое число, нужно проверить, сможет ли 
функция, имеющаяся в языке программирования и выполняющая 
преобразование из строки в число, интерпретировать цифры, не яв¬ 
ляющиеся символами А8СІІ. Пользователи, создающие документы 
с использованием своих родных алфавитов, будут ожидать, что ва¬ 
ше программное обеспечение распознает цифры в этих документах. 

Кроме того что число является последовательностью цифр, оно также 
должно стоять обособленно. Например, А4 - это размер бумаги, а не чис¬ 
ло. Существует несколько способов, позволяющих гарантировать, что 
регулярное выражение будет совпадать только с числами. 

Если необходимо проверить, является ли некоторый текст числом, до¬ 
статочно окружить регулярное выражение якорными символами, сов¬ 
падающими с началом и с концом текста. Лучше всего для этого выби- 




М?' 




ч 

V 


Мы предпочитаем явно указывать диапазон <[0-9]> и не использовать 
сокращенную форму записи <\сЬ. В диалектах .ЫЕТ и Регі метасим¬ 
вол <\сі> соответствует любой цифре из любого алфавита, тогда как 
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рать метасимволы <\А> и <Ѵ>, потому что их смысл не изменяется. К со¬ 
жалению, диалект ^ѵаЗсгірЪ их не поддерживает. В ^ѵаЗсгірі; можно 
использовать метасимволы <"> и <$>, но при этом не следует указывать 
флаг /т, который вынуждает символ крышки и знак доллара совпадать 
с разрывами строк. В КиЬу символ крышки и знак доллара всегда сов¬ 
падают с разрывами строк, поэтому их использование не может выну¬ 
дить регулярное выражение совпадать со всем текстом. 

Когда поиск чисел производится в пределах объемного текстового доку¬ 
мента, простое решение могут дать метасимволы границы слова (ре¬ 
цепт 2.6). Если поместить их до или после элемента регулярного выра¬ 
жения, соответствующего цифре, границы слова обеспечат отсутствие 
символов слова до или после совпавшей цифры. Например, выражение 
<4> совпадет с цифрой 4 в строке А4. Выражение <4\Ь> тоже обнаружит 
совпадение, потому что в этой строке после цифры 4 отсутствуют какие- 
либо символы слова. Выражения <\Ь4> и <\Ь4\Ь> не обнаружат совпаде¬ 
ния в строке А4, потому что проверка <\Ь> будет терпеть неудачу при со¬ 
поставлении с позицией между символами А и 4. В регулярных выраже¬ 
ниях к символам слова относятся буквы, цифры и знак подчеркивания. 

Если в регулярное выражение включается сопоставление с символом, 
не являющимся символом слова, таким как знак плюс или минус, или 
пробельный символ, следует быть очень осторожным в использовании 
границ слова. Чтобы найти совпадение с последовательностью +4 и при 
этом исключить совпадение с последовательностью +4В, вместо выраже¬ 
ния <\Ь\+4\Ь> следует использовать выражение <\+4\Ь>. Первое выраже¬ 
ние не будет совпадать с фрагментом +4, потому что в испытуемой стро¬ 
ке перед знаком плюс отсутствует символ слова, чтобы удовлетворить 
границу слова. Выражение <\Ь\+4\Ь> обнаружит совпадение +4 в строке 
3+4, потому что 3 - это символ слова, а + - нет. 

Выражение <\+4\Ь> требует наличия единственной границы слова. В вы¬ 
ражении <\+\Ь4\Ь> первый метасимвол <\Ь> является избыточным. При со¬ 
поставлении этого регулярного выражения первый метасимвол <\Ь> все¬ 
гда будет обнаруживать совпадение с позицией между + и 4 и поэтому ни¬ 
когда ничего не исключит. Первый метасимвол <\Ь> становится необходи¬ 
мым, когда знак плюс является необязательным. Выражение <\+?\Ь4\Ь> 
не совпадет с цифрой 4 в тексте А4, а выражение <\+?4\Ь> совпадет. 

Границы слова не всегда обеспечивают верное решение. Рассмотрим ис¬ 
пытуемый текст $123,456.78. Если попытаться в цикле сопоставить 
с этой строкой регулярное выражение <\Ь[0-9]+\Ь>, оно обнаружит совпа¬ 
дения 123, 456 и 78. Знак доллара, запятая и десятичная точка не явля¬ 
ются символами слова, поэтому границы слова будут обнаруживать 
совпадения между цифрами и всеми этими символами. Иногда это 
именно то, что требуется, а иногда - нет. 

Если требуется всего лишь отыскать целые числа, окруженные пробель¬ 
ными символами или началом и концом текста, вместо границ слова 
следует использовать проверку соседних символов. Проверке <(?=$ |\з)> 
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соответствует позиция в самом конце текста или перед пробельным 
символом (разрывы строк также входят в число пробельных символов). 
Проверке <(?>=~|\з)> соответствует позиция в самом начале текста или 
после пробельного символа. Метасимвол <\з> можно заменить символь¬ 
ным классом, совпадающим с любым желаемым символом, который 
может появляться перед числом или после него. Порядок работы прове¬ 
рок соседних символов описывается в рецепте 2.16. 

Диалекты Регі и РуИюп поддерживают ретроспективные проверки, но 
они не допускают использования в них альтернатив с разной длиной 
совпадений. Так как совпадение с <~> имеет нулевую длину, а совпаде¬ 
ние с <\з> включает один символ, альтернативу <~> необходимо вынести 
за пределы ретроспективной проверки. То есть конструкция <(?<=~|\з)> 
в диалектах Регі и РуИюп превращается в конструкцию <(?: #ч |(?<=\з))>. 
Функционально эти два регулярных выражения идентичны. Просто 
последнее требует нескольких лишних нажатий на клавиатуре. 

Диалекты ЗаѵаЗсгірІ и КиЬу 1.8 не поддерживают ретроспективную про¬ 
верку. Чтобы проверить, находится ли число в начале строки или пред¬ 
шествует ли ему пробельный символ, вместо ретроспективной провер¬ 
ки можно использовать обычную группировку. Недостаток такого под¬ 
хода состоит в том, что пробельный символ будет включен в совпадение, 
если число не находится в начале текста. Эту проблему можно легко ре¬ 
шить, если часть регулярного выражения, совпадающую с числом, по¬ 
местить в сохраняющую группу. Пятое регулярное выражение в разделе 
«Решение» сохраняет пробельный символ в первой сохраняющей груп¬ 
пе, а совпадение с целым числом - во второй. 

См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. В рецепте 2.16 рассказывается 
об опережающих и ретроспективных проверках. 

6.2. Шестнадцатеричные числа 

Задача 

Требуется отыскать шестнадцатеричные числа в объемном текстовом 
документе или проверить, является ли значение строковой переменной 
шестнадцатеричным числом. 
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Решение 

Поиск любых шестнадцатеричных чисел в текстовом документе: 
\Ь[0-9А-Р]+\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 

\Ь[0-9А-Ра--Г]+\Ь 

Параметры: нет 

Диалекты: ^ЕТ, Лѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЪу 

Проверка, является ли строка шестнадцатеричным числом: 
\А[0-9А-Р]+\2 

Параметры: нечувствительность к регистру символов 
Диалекты: .1ЧЕТ, ^ѵа, РСКЕ, Регі, РуИюп, КиЬу 

~[0-9А-Р]+$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .1ЧЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуПюп 

Поиск шестнадцатеричных чисел с префиксом Ох: 

\Ь0х[0-9А-Р]+\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, Лѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

Поиск шестнадцатеричных чисел с префиксом &Н: 

&Н[0-9А-Р]+\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск шестнадцатеричных чисел, оканчивающихся символом Н: 

\Ь[0-9А-Р]+Н\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЬу 

Поиск шестнадцатеричного значения байта, или 8-битного числа: 

\Ь[0-9А-Р]{2 >\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуіЬоп, КиЬу 

Поиск шестнадцатеричного значения слова, или 16-битного числа: 

\Ь[0-9А-Р]{4}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: ^ЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуНюп, КиЬу 

Поиск шестнадцатеричного значения двойного слова, или 32-битного 
числа: 
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\Ь[0-9А-Р]{8}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .1ЧЕТ, ^ѵа, ЗаѵаВсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск шестнадцатеричного значения четверного слова, или 64-битного 
числа: 

\Ь[0-9А-Р]{16}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ІЧЕТ, Лѵа, ^ѵавсгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск строки шестнадцатеричных значений байтов (то есть четного 
числа шестнадцатеричных цифр): 

\Ь(?:[0-9А-Р]{2})+\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^аѵа, ^ѵабсгірі;, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

При сопоставлении шестнадцатеричных чисел с регулярными выраже¬ 
ниями используются те же приемы, что и при сопоставлении целых де¬ 
сятичных чисел. Единственное отличие состоит в том, что символьный 
класс, соответствующий одной цифре, на этот раз должен включать бук¬ 
вы от А до Е. При этом необходимо решить, должны ли эти символы 
использоваться в верхнем или в нижнем регистре или допускается сме¬ 
шивание регистров символов. Регулярные выражения, рассматривае¬ 
мые здесь, допускают смешивание регистров символов. 

По умолчанию регулярные выражения различают регистр символов. 
Классу <[0-9а-Г]> соответствуют шестнадцатеричные цифры только 
в нижнем регистре, а классу <[0-9А-Р]> - только в верхнем регистре. Что¬ 
бы обеспечить возможность совпадения без учета регистра символов, 
можно использовать класс <[0-9а-РА-Р]> или включить режим нечувст¬ 
вительности к регистру символов. Как это сделать в языках програм¬ 
мирования, описываемых в этой книге, рассказывается в рецепте 3.4. 
Первое регулярное выражение в решениях показано дважды - в них 
используются разные способы обеспечения нечувствительности к реги¬ 
стру символов. Во всех остальных регулярных выражениях использу¬ 
ется только второй способ. 

Если необходимо, чтобы в шестнадцатеричных числах были допусти¬ 
мы только символы верхнего регистра, можно использовать приведен¬ 
ные регулярные выражения с выключенным режимом нечувствитель¬ 
ности к регистру символов. Чтобы обеспечить допустимость только 
символов нижнего регистра, следует отключить режим нечувствитель¬ 
ности к регистру символов и заменить фрагмент <А-Р> на <а -Т>. 

Выражение <(?:[0-9А-Р]{2})+> соответствует четному числу шестнадцате¬ 
ричных цифр. Выражение <[0-9А-Р]{2}> соответствует точно двум шест- 
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надцатеричным цифрам. Выражение <(?:[0-9А-Р]{2})+> повторяет это 
сопоставление один или более раз. Применение несохраняющей груп¬ 
пировки (рецепт 2.9) здесь совершенно необходимо, потому что кван¬ 
тификатор <+> должен повторять комбинацию символьного класса 
и квантификатора <{2}>. Выражение <[0-9А-Р]{2}+> не будет рассматри¬ 
ваться как ошибочное в диалектах Заѵа, РСКЕ и Регі 5.10, но оно делает 
совсем не то, что ожидается. Дополнительный символ <+> превращает 
квантификатор < {2}> в захватывающий. В данном случае это не дает ни¬ 
какого эффекта, потому что квантификатор <{2}> не может повторить 
предшествующий ему элемент менее двух раз. 

В некоторых решениях показано, как обеспечить совпадения с шест¬ 
надцатеричными числами, имеющими префикс или окончание, часто 
используемые для идентификации шестнадцатеричных чисел. Они ис¬ 
пользуются, чтобы обозначить разницу между десятичными и шест¬ 
надцатеричными числами, которые могут состоять исключительно из 
десятичных цифр. Например, 10 может быть десятичным числом меж¬ 
ду 9 и 11 или шестнадцатеричным числом между Г и 11. 

В большинстве решений используются метасимволы границы слова (ре¬ 
цепт 2.6). Границы слова можно использовать при поиске чисел в тек¬ 
стовых документах. Следует отметить, что регулярное выражение, до¬ 
пускающее наличие префикса &Н, не имеет метасимвола границы слова 
в начале. Это обусловлено тем, что амперсанд не является символом сло¬ 
ва. Если бы в начале регулярного выражения присутствовал метасим¬ 
вол границы слова, оно отыскивало бы только шестнадцатеричные чис¬ 
ла, следующие сразу же за символом слова. 

Если необходимо проверить, является ли весь текст шестнадцатерич¬ 
ным числом, достаточно просто окружить регулярное выражение мета¬ 
символами, совпадающими с началом и с концом текста. Лучше всего 
для этого выбирать метасимволы <\А> и <\2>, потому что их смысл не из¬ 
меняется. К сожалению, диалект ЗаѵаЗсгірІ их не поддерживает. В За- 
ѵаВсгір! можно использовать метасимволы <~> и <$>, но при этом не следу¬ 
ет указывать флаг /т, который вынуждает символ крышки и знак дол¬ 
лара совпадать с разрывами строк. В КиЪу символ крышки и знак дол¬ 
лара всегда совпадают с разрывами строк, поэтому их использование не 
может вынудить регулярное выражение совпадать со всем текстом. 

См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. В рецепте 2.12 объяс¬ 
няется, как организовать сопоставление с повторяющимися комбина¬ 
циями символов. 
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6.3. Двоичные числа 

Задача 

Требуется отыскать двоичные числа в объемном текстовом документе 
или проверить, является ли значение строковой переменной двоичным 
числом. 

Решение 

Поиск двоичного числа в текстовом документе: 

\ь[01]+\ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РОКЕ, Регі, РуПіоп, КиЬу 

Проверка, является ли строка двоичным числом: 

\А[01]+\2 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, РуЙюп, КиЬу 

"[ 01 ]+$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуЙюп 
Поиск двоичного числа, начинающегося с префикса 0Ь: 

\ьоь[оі]+ѵ> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірѣ, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск двоичного числа, оканчивающегося символом В: 

\Ь[01]+В\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, Лѵа8сгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск двоичного значения байта, или 8-битного числа: 

\Ь[01]{8}\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск двоичного значения слова, или 16-битного числа: 

\Ь[01]{16}\Ь 

Параметры: нет 

Диалекты: .КЕТ, ^ѵа, ЛѵаЗсгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск строки байтов (то есть двоичных цифр, количество которых крат¬ 
но 8): 
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\Ь(?:[01]{8})+\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЕсгірі;, РСКЕ, Регі, Руііюп, КиЬу 

Обсуждение 

Во всех этих регулярных выражениях используются те же приемы, что 
и в двух предыдущих рецептах. Основное отличие состоит в том, что те¬ 
перь каждая цифра может быть 0 или 1. Это легко можно обеспечить 
с помощью символьного класса, включающего всего два символа: <[01]>. 

См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. В рецепте 2.12 объяс¬ 
няется, как организовать сопоставление с повторяющимися комбина¬ 
циями символов. 

6.4. Восьмеричные числа 

Задача 

Требуется отыскать восьмеричные числа в объемном текстовом докумен¬ 
те или проверить, является ли значение строковой переменной восьме¬ 
ричным числом. Восьмеричное число - это число, состоящее из цифр от О 
до 7. Число должно начинаться хотя бы с одного нуля или с префикса Оо. 

Решение 

Поиск восьмеричного числа в текстовом документе: 

\Ь0[0-7]*\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

Проверка, является ли строка восьмеричным числом: 

\А0[0-7]*Ѵ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуіЬоп, КиЬу 

~0[0-7]*$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, Лѵа8сгір1, РСКЕ, Регі, Руііюп 
Поиск восьмеричного числа, начинающегося с префикса Оо: 




464 


Глава 6. Числа 


\Ь0о[0-7]+\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, Заѵа8сгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

Эти регулярные выражения очень напоминают регулярные выраже¬ 
ния из предыдущих рецептов в этой главе. Единственное существенное 
отличие - префикс 0 также является частью самого восьмеричного чис¬ 
ла. В частности, отдельная цифра 0 является допустимым восьмерич¬ 
ным числом. Поэтому если в предыдущих рецептах для повторения со¬ 
поставления с символьным классом цифр один или более раз использо¬ 
вался квантификатор <+>, то в первых двух решениях в этом рецепте ис¬ 
пользуется квантификатор <*>, повторяющий попытки сопоставления 
ноль или более раз. Таким способом обеспечивается возможность сов¬ 
падения с восьмеричными числами любой длины, включая число 0. 

В третьем решении снова использован квантификатор <+>. Это обуслов¬ 
лено требованием наличия хотя бы одной цифры после префикса 0о. 

См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.12 объясняется, как орга¬ 
низовать сопоставление с повторяющимися комбинациями символов. 

6.5. Десятичные числа 

Задача 

Требуется найти разные типы целых десятичных чисел в объемном 
текстовом документе или проверить, является ли значение строковой 
переменной целым десятичным числом. Число не должно начинаться 
с нуля, так как это отличительная особенность восьмеричных чисел. 
Но сама цифра «ноль» является допустимым десятичным числом. 

Решение 

Поиск в текстовом документе любого положительного целого десятич¬ 
ного числа, не начинающегося с нуля: 

\Ь(0|[1-9][0-9]*)\Ь 

Параметры: нет 

Диалекты:.ЫЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 
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Проверка, является ли строка положительным целым десятичным 
числом, не начинающимся с нуля: 

\А( 01 [1-9][0-9]*)Ѵ 

Параметры: нет 

Диалекты:. МЕТ, Заѵа, РСКЕ, Регі, РуЙюп, КиЬу 

~(0|[1-9][0-9]*)$ 

Параметры: нет 

Диалекты:. ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуНюп 

Обсуждение 

В рецепте 6.1 приводится множество решений задачи поиска целых де¬ 
сятичных чисел с подробным их описанием. Однако те решения не учи¬ 
тывают, что во многих языках программирования числа, начинающие¬ 
ся с нуля, интерпретируются как восьмеричные, а не как десятичные. 
В них просто используется конструкция <[0-9]+>, совпадающая с любы¬ 
ми последовательностями десятичных цифр. 

Решения в этом рецепте исключают числа, начинающиеся с нуля, но 
совпадают с единственным нулем. Вместо конструкции <[0-9]+>, совпа¬ 
дающей с произвольной последовательностью десятичных цифр, в дан¬ 
ном рецепте используется конструкция <0| [1-9][0-9]*>, совпадающая либо 
с единственной цифрой «ноль», либо с десятичным числом, содержащим 
хотя бы одну цифру и не начинающимся с цифры «ноль». Так как опера¬ 
тор выбора имеет самый низкий приоритет среди всех операторов регу¬ 
лярных выражений, мы использовали группировку, чтобы вывести со¬ 
поставление с якорями и границами слов за пределы оператора выбора. 

См. также 

Рецепт 6.4, где приводятся решения для сопоставления с восьмеричны¬ 
ми числами. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. 

6.6. Удаление ведущих нулей 

Задача 

Требуется написать регулярное выражение, совпадающее с целым чис¬ 
лом, которое либо возвращает число без ведущих нулей, либо удаляет 
ведущие нули. 
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Решение 

Регулярное выражение 

\Ь0*([1-9][0-9]* | О)\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ^ѵа8сгірі, РСКЕ, Регі, РуІЪоп, КиЪу 

Замещающий текст 

$і 

Диалекты замещающего текста: .ЫЕТ, <Іаѵа, ^ѵаВсгірГ, РНР, Регі 

М 

Диалекты замещающего текста: РНР, Руііюп, КиЬу 

Извлечение чисел в Регі 

\л/Ше ($зиЬз есі: =~ т/\Ь0*([1-9][0-9]* |0)\Ь/д) { 
ризМ(@1із1: , $1); 

} 

Удаление ведущих нулей в РНР 

$ гезиіі: = ргед_ геріасе ('/\Ь0*([1-9][0-9]* 10)\Ь/‘, '$1\ $зиЬ^ есі: ); 

Обсуждение 

Для отделения числа от ведущих нулей мы используем сохраняющую 
группировку. Подвыражение <0*> перед группой совпадает с ведущими 
нулями, если таковые имеются. Конструкции <[1-9][0-9]*> внутри груп¬ 
пы соответствует число, состоящее из одной или более цифр, причем 
первая цифра числа не может быть нулем. Число может начинаться 
с нуля, только если это сам ноль. Границы слова гарантируют, что сов¬ 
падение будет обнаружено с целым числом, а не с его частью, о чем уже 
говорилось в рецепте 6.1. 

Чтобы получить список всех чисел в испытуемом тексте, не содержа¬ 
щих ведущих нулей, необходимо выполнить обход всех совпадений 
с регулярным выражением, как описывается в рецепте 3.11. Внутри 
цикла число следует извлекать из первой (и единственной) сохраняю¬ 
щей группы, как описывается в рецепте 3.9. В этом решении показано, 
как реализовать эту операцию на языке Регі. 

Удаление ведущих нулей легко можно выполнить с помощью операции 
поиска с заменой. Наше регулярное выражение отделяет число от веду¬ 
щих нулей с помощью сохраняющей группировки. Если заменить все 
совпадение с регулярным выражением (число вместе с ведущими нуля¬ 
ми) текстом совпадения с первой сохраняющей группой, мы фактиче¬ 
ски удалим ведущие нули. В решении показано, как можно реализо¬ 
вать эту операцию на языке РНР. 
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См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. 

6.7. Числа в определенном диапазоне 

Задача 

Требуется обеспечить совпадение с целым числом, попадающим в опре¬ 
деленный диапазон. При этом необходимо, чтобы регулярное выраже¬ 
ние определяло точный диапазон значений, а не ограничивало количе¬ 
ство цифр. 

Решение 

От 1 до 12 (час или месяц) 

~(1[0-2]|[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуІЪоп, КиЪу 

От 1 до 24 (час): 

~(2[0-4]|1[0-9]|[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

От 1 до 31 (день месяца): 

~(3[01]|[12][0-9]|[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, Руііюп, КиЪу 

От 1 до 53 (неделя года): 

~(5[0-3]|[1-4][0-9]|[1-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ^ѵабсгірі, РСКЕ, Регі, РуІЪоп, КиЪу 

От 0 до 59 (минута или секунда): 

~[1-5]?[0-9]$ 
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Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РОКЕ, Регі, РуІЬоп, КиЬу 

От 0 до 100 (процент): 

~(100 | [1-9]?[0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^аѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

От 1 до 100: 

"(100|[1-9][0-9]?)$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

От 32 до 126 (коды отображаемых символов А8СІІ): 

~(12[0-6] | 1[01][0-9] | [4-9][0-9]|3[2-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі, РСКЕ, Регі, РуІЬоп, КиЬу 

От 0 до 127 (неотрицательное значение байта со знаком): 

"(12[0-7]|1[01][0-9]|[1-9]?[0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуіЬоп, КиЬу 

От -128 до 127 (значение байта со знаком): 

Л (12[0-7]|1[01][0-9]|[1-9]?[0-9]|-(12[0-8]|1[01][0-9]|[1-9]?[0-9]))$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуіЬоп, КиЬу 

От 0 до 255 (значение байта без знака): 

~(25[0-5] | 2[0-4][0-9]|1[0-9]{2}|[1-9]?[0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

От 1 до 366 (день года): 

"(36[0-6] | 3[0-5][0-9] | [12][0-9]{2}|[1-9][0-9]?)$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІИоп, КиЬу 

От 1900 до 2099 (год): 

~(19|20)[0-9]{2}$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

От 0 до 32767 (неотрицательное значение слова со знаком): 

''(3276Г0-7] 1 327[0-5][0-9] 132[0-6][0-9]{2} 13[01 ][0-9]{3} |[12][0-9]{4}|^І 
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[1-9][0-9]{1,3}|[0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

От -32768 до 32767 (значение слова со знаком): 

~(3276[0-7]|327[0-5][0-9]|32[0-6][0-9]{2}|3[01][0-9]{3}|[12][0-9]{4}| Д 
[1-9][0-9]{1,3}|[0-9]|-(3276[0-8]|327[0-5][0-9]|32[0-6][0-9]{2}|Д 
3[01][0-9]{3}|[12][0-9]{4}|[1-9][0-9]{1,3}|[0-9]))$ 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, Лѵа8сгірі, РСКЕ, Регі, РуЪЪоп, КиЬу 

От 0 до 65535 (значение слова без знака): 

~(6553[0-5]|655[0-2][0-9]|65[0-4][0-9]{2}|6[0-4][0-9]{3}|[1-5][0-9]{4}|«4 
[1-9][0-9]{1,3}|[0-9])$ 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

В предыдущих рецептах выполнялось сопоставление с целыми числа¬ 
ми, состоящими из произвольного или определенного количества цифр. 
Они допускали появление любых цифр в любом разряде числа. Это 
очень простые регулярные выражения. 

Сопоставление с числами в определенном диапазоне, например с числа¬ 
ми от 0 до 255, - не такая уж простая задача для регулярных выраже¬ 
ний. Нельзя написать выражение <[0-255]>. Нет, вы, конечно, можете за¬ 
писать такое выражение, но оно не будет совпадать с числами в диапа¬ 
зоне от 0 до 255. Это будет символьный класс, эквивалентный классу 
<[0125]>, соответствующий единственному символу, который является 
цифрой 0, 1, 2 или 5. 

~ ж ♦ 


строка, например, полученная от пользователя, допустимым чис¬ 
лом. В рецепте 6.1 объясняется, как вместо якорных метасимволов 
можно использовать границы слова и проверки соседних символов 
в случае применения регулярных выражений для других целей. 
В обсуждении регулярные выражения будут приводиться без якор¬ 
ных метасимволов и основное внимание будет уделяться работе 
с диапазонами. Если у вас появится желание использовать одно из 
этих регулярных выражений, вы должны будете добавить якорные 
метасимволы или границы слова, чтобы обеспечить совпадение ре¬ 
гулярного выражения с полным числом, а не с его частью. 

Регулярные выражения сопоставляются с текстом символ за символом. 

Если необходимо получить совпадение с числом, состоящим более чем 




4Г% 




Так как эти регулярные выражения получились немного длинны¬ 
ми, во всех решениях используются якорные метасимволы, чтобы 
сделать выражения пригодными для проверки, является ли вся 
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из одной цифры, придется предусмотреть все возможные комбинации 
цифр. Основными стандартными строительными блоками таких выра¬ 
жений являются символьные классы (рецепт 2.3) и конструкции выбо¬ 
ра (рецепт 2.8). 

В символьных классах можно использовать диапазоны для одной циф¬ 
ры, такие как <[0-5]>. Это возможно благодаря тому, что цифры от 0 до 9 
занимают непрерывную область в таблицах символов А8СІІ и Юникод. 
Классу <[0-5]> соответствует один из шести символов, точно так же как 
классам <[]-о]> и <[\х09-\х0Е]> соответствуют другие диапазоны из шести 
символов. 

Когда число из определенного диапазона присутствует в тексте, оно за¬ 
нимает некоторое количество следующих друг за другом позиций. Каж¬ 
дую позицию занимает некоторая цифра из определенного диапазона. 
Числа из одних диапазонов, например от 12 до 24, занимают фиксиро¬ 
ванное количество позиций. Числа из других диапазонов, например от 1 
до 12, могут занимать переменное количество позиций. Диапазон цифр, 
допустимых в каждой позиции, может зависеть или не зависеть от цифр, 
стоящих в других позициях. В диапазоне чисел от 40 до 59 позиции не 
зависят друг от друга. В диапазоне чисел от 44 до 55 позиции уже явля¬ 
ются взаимозависимыми. 

Проще всего представить те диапазоны, числа из которых занимают 
фиксированное количество независимых позиций, такие как от 40 до 
59. Чтобы записать такие числа в виде регулярного выражения, доста¬ 
точно просто объединить несколько символьных классов. При этом нуж¬ 
но использовать один символьный класс для каждой позиции, указы¬ 
вая в них допустимые диапазоны цифр в той или иной позиции. 

[ 45 ][ 0-9 ] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірѣ, РСКЕ, Регі, РуіЬоп, КиЬу 

Для представления чисел из диапазона от 40 до 59 требуются две циф¬ 
ры. Поэтому нам потребовались два символьных класса. Первая цифра 
может быть 4 или 5. Символьный класс <[45]> соответствует любой из 
этих цифр. Вторая цифра может быть любой из 10 цифр. Совпадение 
с этой цифрой обеспечивается классом <[0-9]>. 


Вместо класса <[0-9]> можно было бы использовать его сокращенную 
форму записи <\с1>. Мы используем явный диапазон <[0-9]>, чтобы со¬ 
хранить единство стиля записи символьных классов и поддержать 
удобочитаемость. Уменьшение числа символов обратного слэша 
в регулярных выражениях также очень полезно при работе с таки¬ 
ми языками программирования, как ^ѵа, которые требуют экра¬ 
нировать обратные слэши в строковых литералах. 

Числа в диапазоне от 44 до 55 также занимают две позиции, но они не 
являются взаимонезависимыми. Первая цифра может быть 4 или 5. Ес- 
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ли первая цифра 4, вторая цифра должна попадать в диапазон от 4 до 9, 
охватывая числа от 44 до 49. Если первая 5, вторая цифра должна попа¬ 
дать в диапазон от 0 до 5, охватывая числа от 50 до 55. В регулярном 
выражении можно просто объединить эти два диапазона чисел с помо¬ 
щью конструкции выбора: 

4[4-9]|5[0-5] 

Параметры: нет 

Диалекты: .1МЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуНюп, КиЬу 

С помощью конструкции выбора мы сообщили механизму регулярных 
выражений, что требуется найти совпадение с <4[4-9]> или <5[0-5]>. Сре¬ 
ди всех операций регулярных выражений оператор выбора имеет наи¬ 
меньший приоритет, благодаря чему не требуется группировать циф¬ 
ры, как в выражении <(4[4-9])|(5[0-5)>. 

При необходимости в конструкции выбора можно объединить столько 
диапазонов, сколько потребуется. Числа в диапазоне от 34 до 65 также 
занимают две взаимозависимые позиции. Первая цифра может быть 
любой цифрой в диапазоне от 3 до 6. Если первая цифра 3, вторая долж¬ 
на попадать в диапазон от 4 до 9. Если первая цифра 4 или 5, вторая 
цифра может быть любой. Если первая цифра 6, вторая должна попа¬ 
дать в диапазон от 0 до 5: 

3[4-9]|[45][0-9]|6[0-5] 

Параметры: нет 

Диалекты: .МЕТ, Лѵа, ЛѵаВсгірі, РСКЕ, Регі, РуіЬоп, КиЪу 

Точно так же, как мы использовали конструкцию выбора, чтобы раз¬ 
бить диапазон с взаимозависимыми позициями на несколько диапазо¬ 
нов с взаимонезависимыми позициями, мы можем использовать кон¬ 
струкцию выбора, чтобы разбить диапазон чисел с переменным числом 
позиций на несколько диапазонов с фиксированным числом позиций. 
Числа в диапазоне от 1 до 12 могут занимать одну или две позиции. Вы¬ 
делим из него диапазон от 1 до 9, занимающий одну позицию, и диапа¬ 
зон от 10 до 12, занимающий две позиции. Позиции в каждом из этих 
двух диапазонов являются взаимонезависимыми, поэтому нам не потре¬ 
буется разбивать их в свою очередь: 

4[0-2]|[1-9] 

Параметры: нет 

Диалекты: ^ЕТ, ^аѵа., ^ѵаЗсгірѣ, РСКЕ, Регі, РуНюп, КиЪу 

Мы поместили диапазон чисел с двумя цифрами перед диапазоном с од¬ 
ной цифрой. Это было сделано преднамеренно, потому что механизм ре¬ 
гулярных выражений нетерпелив по своей природе. Он выполняет про¬ 
смотр выражения слева направо и останавливается, как только обнару¬ 
живает первое же совпадение. Если представить, что имеется испытуе¬ 
мый текст 12, выражение <1 [0-2] | [1-9]> обнаружит совпадение 12, тогда 
как выражение <[1-9]|1[0-2]> совпадет только с цифрой <1>. Первой будет 
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опробована альтернатива <[1-9]>. Поскольку она благополучно совпадет 
с 1, механизм регулярных выражений не будет даже пытаться проверить 
альтернативу <1[0-2]>, которая может обеспечить «лучшее» решение. 


Некоторые механизмы регулярных выражений 

не являются нетерпеливыми 

РОЗІХ-совместимые механизмы регулярных выражений и меха¬ 
низмы ДКА не следуют этому правилу. Они опробуют все альтер¬ 
нативы и возвращают самое длинное совпадение. Однако все диа¬ 
лекты, рассматриваемые в этой книге, являются механизмами 
НКА, которые не выполняют дополнительную работу, требуемую 
стандартом Р08ІХ. Все они сообщат, что выражение <[1 -9] 1 1 [0-2]> 
совпадает с 1 в тексте 12. 

На практике список альтернатив обычно окружается якорными 
метасимволами или границами слова. В этом случае порядок сле¬ 
дования альтернатив не имеет никакого значения. Оба выраже¬ 
ния, <~([1-9]|1[0-2])$> и <~(1[0-2]|[1-9])$>, в любом из диалектов, опи¬ 
сываемых в этой книге, обнаружат совпадение с 12 в тексте 12, так 
же как Р08ІХ-совместимые механизмы регулярных выражений 
и механизмы ДКА. Якорные метасимволы требуют, чтобы регу¬ 
лярное выражение совпало либо со всей строкой целиком, либо не 
совпало вообще. Определения механизмов ДКА и НКА приводят¬ 
ся во врезке «История появления термина «регулярное выраже¬ 
ние» в главе 1. 


Диапазон от 85 до 117 включает числа, которые могут иметь две разные 
длины. Числа в диапазоне от 85 до 99 занимают две позиции, а числа 
в диапазоне от 100 до 117 - три. Позиции в этих диапазонах являются 
взаимозависимыми, поэтому необходимо произвести дополнительное 
деление. В случае диапазона, занимающего две позиции: если первая 
цифра 8, вторая должна попадать в диапазон от 5 до 9. Если первая 
цифра 9, вторая может быть любой цифрой. В случае диапазона, зани¬ 
мающего три позиции: первая цифра может быть только 1. Если во вто¬ 
рой позиции находится цифра 0, тогда в третьей позиции может нахо¬ 
диться любая цифра. Но если вторая цифра 1, тогда третья должна по¬ 
падать в диапазон от 0 до 7. В результате мы получаем четыре диапазо¬ 
на: от 85 до 89, от 90 до 99, от 100 до 109 и от 110 до 117. Несмотря на то 
что количество диапазонов увеличилось, регулярное выражение оста¬ 
ется таким же прямолинейным, как и предыдущие: 

8[5-9]|9[0-9]|10[0-9]|11[0-7] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 
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Чтобы обеспечить совпадение регулярного выражения с диапазонами 
чисел, необходимо просто выполнять деление на диапазоны, пока все 
диапазоны не будут иметь фиксированное число взаимонезависимых 
позиций. Если следовать этому правилу, всегда будут получаться кор¬ 
ректные регулярные выражения, которые легко читать и сопровож¬ 
дать, даже если они будут иметь внушительную длину. 

Существует несколько приемов, которые позволят уменьшить длину 
регулярных выражений. Например, регулярное выражение, совпадаю¬ 
щее с числами из диапазона от 0 до 65535, с помощью предыдущего 
правила можно записать так: 

6553[0-5]|655[0-2][0-9]|65[0-4][0-9][0-9]|6[0-4][0-9][0-9][0-9]|Д 
[1-5][0-9][0-9][0-9][0-9]|[1-9 ] [0-9][0-9][0-9]|[1-9][0-9][0-9]|Д 
[1-9][0-9]|[0-9] 

Параметры: нет 

Диалекты: .ИЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуІЬоп, КиЪу 

Это регулярное выражение прекрасно справляется со своей задачей, 
и невозможно придумать регулярное выражение, которое выполнялось 
бы быстрее. Любые оптимизации, какие можно было бы применить (на¬ 
пример, в выражении присутствует несколько альтернатив, начинаю¬ 
щихся с 6), будут выполнены механизмом регулярных выражений 
в процессе компиляции выражения. Нет никакой необходимости тра¬ 
тить свое время впустую, чтобы усложнить выражение в надежде сде¬ 
лать его быстрее. Однако есть возможность сделать регулярное выраже¬ 
ние короче, чтобы сэкономить время на вводе с клавиатуры и при этом 
сохранить удобочитаемость. 

В некоторых альтернативах присутствуют идентичные символьные 
классы, следующие друг за другом. Существует возможность убрать 
дубликаты, воспользовавшись квантификаторами. Полная информа¬ 
ция о квантификаторах приводится в рецепте 2.12. 

6553[0-5]|655[0-2][0-9]|65[0-4][0-9]{2}|6[0-4][0-9]{3}|[1-5][0-9]{4}М 
[1-9][0-9]{3}|[1-9][0-9]{2}|[1-9][0-9]|[0-9] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЪу 

Часть <[1-9][0-9]{3}|[1-9][0-9]{2}|[1-9][0-9]> регулярного выражения со¬ 
держит три очень похожих альтернативы и во всех них присутствует 
одна и та же пара символьных классов. Единственное различие заклю¬ 
чается в количестве повторений второго класса. Мы легко можем объ¬ 
единить их в конструкцию <[1-9][0-9]{1,3}>. 

6553[0-5]|655[0-2][0-9]|65[0-4][0-9]{2}|6[0-4][0-9]{3}|[1-5][0-9]{4}М 
[1-9][0-9]{1,3}|[0-9] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуІЬоп, КиЪу 
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Любые последующие ухищрения только ухудшат удобочитаемость. 
Например, можно было бы отделить ведущую цифру 6 от первых четы¬ 
рех альтернатив: 

6(?:553[0-5]|55[0-2][0-9]|5[0-4][0-9]{2}|[0-4][0-9]{3})|[1-5][0-9]{4}М 
[1-9][0-9]{1,3}|[0-9] 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЪу 

Но в действительности это регулярное выражение получилось на один 
символ длиннее, потому что в него пришлось добавить несохраняющую 
группировку, чтобы отделить цифру 6 от других альтернатив. Этот при¬ 
ем не дает преимуществ в скорости ни в одном из диалектов регуляр¬ 
ных выражений, рассматриваемых в этой книге. Все они выполняют 
эту оптимизацию внутренними средствами. 

См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. В рецеп¬ 
те 6.8 демонстрируется, как реализовать проверку шестнадцатеричных 
чисел в определенном диапазоне. 

В рецепте 4.12 демонстрируется, как исключать определенные числа из 
диапазона допустимых чисел, используя негативную опережающую 
проверку. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 

6.8. Шестнадцатеричные числа 
в определенном диапазоне 

Задача 

Требуется обеспечить совпадение с шестнадцатеричным числом, попа¬ 
дающим в определенный диапазон. При этом необходимо, чтобы регу¬ 
лярное выражение определяло точный диапазон значений, а не ограни¬ 
чивало количество цифр. 

Решение 

От 1 до С (от 1 до 12: час или месяц): 

~[1-9а-с]$ 

Параметры: нечувствительность к регистру символов 
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Диалекты: .МЕТ, Заѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

От 1 до 18 (от 1 до 24: час): 

''(1[0-8]|[1-9а-1 : ])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, 4аѵа, Заѵа8сгір1, РСКЕ, Регі, РуіЬоп, КиЬу 

От 1 до 1Е (от 1 до 31: день месяца): 

'Ч1[0-9а--Г]|[1-9а--Г])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

От 1 до 35 (от 1 до 53: неделя года): 

~(3[0-5] | [12][0-9а-‘Г] | [1-9а-‘Г])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, Заѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

От 0 до ЗВ (от 0 до 59: минута или секунда): 

Л (3[0-9а-Ь]| [12]?[0-9а-Т])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

От 0 до 64 (от 0 до 100: процент): 

~(6[0-4]|[1-5]?[0-9а--Г])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

От 1 до 64 (от 1 до 100): 

~(6[0-4]|[1-5][0-9а-Г]|[1-9а--р])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

От 20 до 7Е (от 32 до 126: коды отображаемых символов А8СІІ): 

Л (7[0-9а-е]|[2-6][О-Эа-Г])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ЛѵаЗсгірѣ, РСКЕ, Регі, РуІЬоп, КиЬу 

От 0 до 7Е (от 0 до 127: 7-битное число): 

~[1-7]?[0-9а--Г]$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Заѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

От 0 до ЕЕ (от 0 до 255: 8-битное число): 

~[1-9а-'Р]?[0-9а-1 : ]$ 
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Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, РуУюп, КиЬу 

От 1 до 16Е (от 1 до 366: день года): 

~(16[0-9а-е] | 1[0-5][0-9а-Г]|[1-9а-Г][0-9а-Г]?)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуіЬоп, КиЬу 

От 76С до 833 (от 1900 до 2099: год): 

"(83[0-3] | 8[0-2][0-9а-Г]|7[7-9а-Г][0-9а-Г]|76[с-Г])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЬу 

От 0 до 7ЕЕЕ: (от 0 до 32767: 15-битное число): 

~([1-7][0-9а-Г]{3} | [1-9а-Г][0-9а-Г]{1,2}|[0-9а-Г])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, Заѵавсгірі, РСКЕ, Регі, РуіЬоп, КиЬу 

От 0 до ЕЕЕЕ: (от 0 до 65535: 16-битное число): 

~([1-9а-Г][0-9а-Г]{1,3}|[0-9а-Г])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .]ЧЕТ, Заѵа, ЗаѵаЗсгірѣ, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Между сопоставлением с диапазонами десятичных чисел и шестнадца¬ 
теричных чисел нет никакой разницы. Как уже говорилось в предыду¬ 
щем разделе, необходимо просто выполнять деление на диапазоны, пока 
каждый из получившихся диапазонов не будет иметь фиксированное 
количество взаимонезависимых позиций. После это останется только 
выбрать символьный класс для каждой позиции и объединить диапазо¬ 
ны с помощью конструкции выбора. 

Так как буквы и цифры занимают отдельные области в таблицах сим¬ 
волов А8СІІ и Юникода, невозможно использовать такой класс, как 
<[0-Р]>, для сопоставления с любой из шестнадцатеричных и десятич¬ 
ных цифр. Этот символьный класс будет совпадать с шестнадцатерич¬ 
ными и десятичными цифрами, но он также будет совпадать со знака¬ 
ми пунктуации, расположенными в таблице А8СІІ между цифрами 
и буквами. Поэтому следует использовать символьный класс с двумя 
диапазонами: <[0-9А-Р]>. 

Другая проблема связана с чувствительностью к регистру символов. По 
умолчанию регулярные выражения различают символы разных реги¬ 
стров. Классу <[0-9А-Р]> соответствуют только символы верхнего регист¬ 
ра, а классу <[0-9а-Р]> - только нижнего. Класс <[0-9А-Ра-Р]> обеспечивает 
совпадение с символами любого регистра. 
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Явно указывать диапазоны символов верхнего и нижнего регистров 
в каждом классе может быстро стать утомительным занятием. Гораздо 
проще включить режим нечувствительности к регистру символов. Как 
это сделать в том или ином языке программирования, рассказывается 
в рецепте 3.4. 

См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 

6.9. Целые числа с разделителями 

Задача 

Требуется отыскать различные целые десятичные числа в объемном до¬ 
кументе или проверить, представляет ли строковая переменная целое 
число. Для удобочитаемости группы разрядов в числах могут разде¬ 
ляться символами подчеркивания. Числа не могут начинаться или за¬ 
канчиваться символом подчеркивания. Числа могут быть десятичны¬ 
ми, восьмеричными, шестнадцатеричными и двоичными. Шестнадца¬ 
теричные и двоичные числа могут начинаться с префикса Ох и ОЬ, соот¬ 
ветственно. 

Примерами допустимых чисел являются следующие последовательно¬ 
сти: 0177_7777_7777, 2_147_483_647 

и 0х7ГГГ_ГГГГ. 

Решение 

Поиск в объемном документе любого десятичного или восьмеричного 
целого числа с необязательными символами подчеркивания: 

\Ь[0-9]+(_+[0-9]+)*\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

Поиск в объемном документе любого шестнадцатеричного целого числа 
с необязательными символами подчеркивания: 

\Ь0х[ 0-9А-Р]+(_+[0-9А-Р]+)*\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуИюп, КиЪу 
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Поиск в объемном документе любого двоичного целого числа с необяза¬ 
тельными символами подчеркивания: 

\Ь0Ь[01 ]+(_+[01]+)*\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаВсгірі;, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск в объемном документе любого двоичного, восьмеричного, деся¬ 
тичного или шестнадцатеричного целого числа с необязательными сим¬ 
волами подчеркивания: 

\Ь([0-9]+(_+[0-9]+)*|0х[0-9А-Р]+(_+[0-9А-Г]+)*|0Ь[01]+(_+[01]+)*)\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^аѵа, Заѵа8сгірі, РСКЕ, Регі, РуНюп, КиЬу 

Проверка, является ли текстовая строка двоичным, восьмеричным, де¬ 
сятичным или шестнадцатеричным целым числом с необязательными 
символами подчеркивания: 

\А([0-9]+(_+[0-9]+)*|0х[0-9А-Р]+(_+[0-9А-Р]+)*|0Ь[01]+(_+[01]+)*)V 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, РСКЕ, Регі, РуНюп, КиЬу 

~([0-9]+(_+[0-9]+)*|0х[0-9А-Р]+(_+[0-9А-Р]+)*|0Ь[01]+(_+[01]+)*)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуНюп 

Обсуждение 

Подробное описание особенностей сопоставления с целыми числами 
приводится в рецептах 6.1, 6.2 и 6.3. В этих рецептах не допускается 
присутствие символа подчеркивания в числах. В регулярных выраже¬ 
ниях, которые приводятся в них, легко можно обойтись конструкция¬ 
ми <[0-9]+>, <[0-9А-Р]+> и <[01]+> для поиска совпадений с десятичными, 
шестнадцатеричными и двоичными числами. 

Если необходимо интерпретировать символы подчеркивания как до¬ 
пустимые, достаточно просто добавить подчеркивание в эти три сим¬ 
вольных класса. Но по условиям задачи числа не могут начинаться или 
заканчиваться символами подчеркивания. Первый и последний символ 
в числах должен быть цифрой. Кому-то может показаться, что эта про¬ 
блема легко решается с помощью выражения <[0-9][0-9_]+[0-9]>. Но это 
не так - оно будет терпеть неудачу на числах, состоящих из единствен¬ 
ной цифры. Поэтому приходится использовать более сложное решение. 

В решении <[0-9]+(_+[0-9]+)*> подвыражение <[0-9]+> обеспечивает совпа¬ 
дение с начальной цифрой или цифрами, как и прежде. Далее следует 
конструкция <(_+[0-9]+)*>, допускающая появление символов подчерки¬ 
вания при условии, что за подчеркиваниями следует одна или более 
цифр. Подвыражение <_+> разрешает появление любого количества сим- 
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волов подчеркивания, следующих подряд, а подвыражение <[0-9]+>- 
присутствие любого количества цифр после подчеркиваний. Эти два 
подвыражения заключены в группу, повторяемую ноль или более раз 
квантификатором <*>. Это обеспечивает возможность появления любого 
количества символов подчеркивания с цифрами между ними и после 
них, при этом допускается также совпадение с числами без символов 
подчеркивания в них. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. 

6.10. Вещественные числа 

Задача 

Требуется обеспечить совпадение с вещественным числом и иметь воз¬ 
можность определять, являются ли знак, целая, дробная и экспоненци¬ 
альная части числа обязательными, необязательными или недопусти¬ 
мыми. Здесь не требуется, чтобы регулярное выражение ограничива¬ 
лось определенным диапазоном значений, потому что эту проверку луч¬ 
ше реализовать в программном коде, как описывалось в рецепте 3.12. 

Решение 

Обязательны знак, целая, дробная и экспоненциальная части. 

~[-+][0-9]+\-[0-9]+[еЕ][-+]?[0-9]+$ 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЪоп, КиЪу 

Обязательны знак, целая и дробная части, экспоненциальная часть не¬ 
допустима. 

~[-+][0-9]+\.[0-9]+$ 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

Знак необязателен, целая и дробная части обязательны, экспоненци¬ 
альная часть недопустима. 

~[-+]?[0-9]+\.[0-9]+$ 

Параметры: нет 
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Диалекты: .МЕТ, Лѵа, Лѵа8сгірѣ, РСКЕ, Регі, РуНіоп, КиЬу 

Необязательны знак и целая часть, дробная часть обязательна, экспо¬ 
ненциальная часть недопустима. 

~[- + ]?[0-9]*\.[0-9]+$ 

Параметры: нет 

Диалекты: .МЕТ, Лѵа, Лѵа8сгірі;, РСКЕ, Регі, РуЙюп, КиЪу 

Необязательны знак, целая и дробная части. Если целая часть опуще¬ 
на, дробная часть становится обязательной. Если опущена дробная 
часть, десятичная точка также должна быть опущена. Экспоненциаль¬ 
ная часть недопустима. 

"[-+]?([0-9]+(\.[0-9]+)?|\.[0-9]+)$ 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵавсгірі;, РСКЕ, Регі, РуЙюп, КиЬу 

Необязательны знак, целая и дробная части. Если целая часть опуще¬ 
на, дробная часть становится обязательной. Если опущена дробная 
часть, десятичная точка становится необязательной. Экспоненциаль¬ 
ная часть недопустима. 

"[-+]?([0-9]+(\.[0-9]*)?ІѴ[0-9]+)$ 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵавсгірі;, РСКЕ, Регі, РуНіоп, КиЬу 

Необязательны знак, целая и дробная части. Если целая часть опуще¬ 
на, дробная часть становится обязательной. Если опущена дробная 
часть, десятичная точка также должна быть опущена. Экспоненциаль¬ 
ная часть необязательна. 

"[-+]?([0-9]+(\.[0-9]+)?|\.[0-9 ]+)([еЕ] [-+]?[0-9]+)?$ 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵаЗсгір!;, РСКЕ, Регі, РуЙіоп, КиЬу 

Необязательны знак, целая и дробная части. Если целая часть опуще¬ 
на, дробная часть становится обязательной. Если опущена дробная 
часть, десятичная точка становится необязательной. Экспоненциаль¬ 
ная часть необязательна. 

~[-+]?([0-9 ]+(\. [0-9]*)?|Ѵ[0-9 ]+)([еЕ] [-+]?[0-9]+)?$ 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵа8сгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Предыдущее регулярное выражение, исправленное для поиска числа 
в текстовом документе: 

[- + ]?(\Ь[0-9]+(\.[0-9]*)?|\.[0-9]+)( [еЕ] [-+]?[0-9]+\Ь)? 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵа8сгірѣ, РСКЕ, Регі, РуЙюп, КиЬу 
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Обсуждение 

Все регулярные выражения заключаются в якорные метасимволы (ре¬ 
цепт 2.5), чтобы обеспечить проверку, является ли весь испытуемый 
текст вещественным числом, в противовес поиску вещественного числа 
в текстовом документе. Если потребуется выполнить поиск веществен¬ 
ного числа в объемном тексте, можно использовать границы слова или 
проверки соседних символов, как описывается в рецепте 6.1. 

Решения, не допускающие наличия необязательных частей, достаточ¬ 
но прямолинейны - они просто перечисляют требуемые соответствия 
слева направо. Символьные классы (рецепт 2.3) совпадают со знаком, 
цифрами и символом е. Квантификаторы <+> и <?> (рецепт 2.12) допуска¬ 
ют появление любого количества цифр и необязательный знак экспо¬ 
ненты. 

Сделать необязательными знак и целую часть числа достаточно просто. 
Знак вопроса, следующий за символьным классом с символами знака, 
делает его необязательным. Замена квантификатора <+> на <*> обеспечит 
возможность повторения цифр целой части числа ноль или более раз 
вместо одного или более раз. 

Сложности начинают возникать, когда необходимо сделать необяза¬ 
тельными знак, целую и дробную части числа. Хотя все они сами по 
себе и являются необязательными, тем не менее они не могут быть не¬ 
обязательными одновременно, так как пустая строка не является до¬ 
пустимым вещественным числом. Простое решение <[-+]?[0-9]*\.?[0-9]*> 
будет совпадать со всеми допустимыми вещественными числами, но 
оно также будет совпадать и с пустой строкой, а так как мы опустили 
якорные метасимволы, это регулярное выражение будет совпадать с пус¬ 
тыми строками между любыми двумя символами в испытуемом тексте. 
Если это регулярное выражение применить в операции поиска с заме¬ 
ной к тексту 123аЬс456, используя замещающий текст «{$&}», в результа¬ 
те будет получена строка {123}{}а{}Ь{}с{456}{}. Регулярное выражение 
корректно совпадет с фрагментами 123 и 456, но оно также обнаружит 
совпадения нулевой длины во всех остальных попытках. 

Создавая регулярное выражение, когда каждый элемент сам по себе мо¬ 
жет быть необязательным, очень важно учесть, могут ли другие элемен¬ 
ты оставаться необязательными, если один из них фактически будет 
опущен. Вещественное число должно содержать хотя бы одну цифру. 

В решениях к этому рецепту подробно поясняется, что когда целая или 
дробная часть является необязательной, тем не менее требуется присут¬ 
ствие какой-либо из них. Кроме того, отдельно поясняется, какие реше¬ 
ния интерпретируют последовательность 123. как вещественное число, 
а какие — как целое число, за которым следует точка, не являющаяся 
частью этого числа. Например, в языках программирования заверша¬ 
ющая точка может рассматриваться как оператор конкатенации или 
как первая точка в операторе диапазона, состоящем из двух точек. 
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Чтобы удовлетворить требование, не допускающее ситуации, когда це¬ 
лая и дробная части могут быть опущены одновременно, для реализа¬ 
ции двух ситуаций мы использовали конструкцию выбора (рецепт 2.8) 
внутри группировки (рецепт 2.9). Выражение <[0-9]+(\.[0-9]+)?> соответ¬ 
ствует ситуации с обязательной целой частью и необязательной дроб¬ 
ной. Выражение <\.[0-9]+> соответствует одной дробной части. 

Объединение <[0-9]+(\.[0-9]+)?|\.[0-9]+> охватывает все три возможные 
ситуации. Первая альтернатива совпадает с числами, содержащими 
целую и дробную части, а также с числами без дробной части. Вторая 
альтернатива совпадает только с дробной частью. Поскольку оператор 
выбора имеет самый низкий приоритет, мы заключили обе альтернати¬ 
вы в группу, после чего получили возможность добавлять эту конструк¬ 
цию в более длинные регулярные выражения. 

Выражение <[0-9]+(\.[0-9]+)?|\.[0-9]+> требует, чтобы десятичная точка 
была опущена в случае отсутствия дробной части. Если точка может 
присутствовать в числе даже в отсутствие дробной части, можно исполь¬ 
зовать выражение <[0-9]+(\.[0-9]*)?|\.[0-9]+>. Первая альтернатива в этом 
регулярном выражении по-прежнему объединена с квантификатором 
<?>, который обеспечивает ее необязательность. Различие заключается 
в том, что теперь сами цифры дробной части объявлены необязательны¬ 
ми. Мы заменили квантификатор <+> (один или более) на <*> (ноль или 
более). В результате первая альтернатива этого регулярного выражения 
совпадает с целой и необязательной дробной частью, причем дробная 
часть может быть представлена десятичной точкой с цифрами или од¬ 
ной десятичной точкой. Вторая альтернатива осталась без изменений. 

Этот последний пример интересен тем, что изменение одного из требо¬ 
ваний привело к изменению квантификатора в регулярном выражении. 
Изменилось требование к точке, которая теперь стала необязательной 
сама по себе, а не в комбинации с цифрами дробной части. Чтобы удовле¬ 
творить изменившемуся требованию, мы поменяли квантификатор 
у символьного класса, соответствующего цифрам дробной части. Такое 
решение стало возможным благодаря тому, что точка и символьный 
класс уже были сгруппированы, что делает их необязательными одно¬ 
временно. 

См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.8 описывается применение оператора выбора. В рецепте 2.9 
рассказывается о группировке. В рецепте 2.12 объясняется, как орга¬ 
низовать сопоставление с повторяющимися комбинациями символов. 
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6.11. Числа с разделителями групп разрядов 

Задача 

Требуется обеспечить совпадение с числами, в которых запятая исполь¬ 
зуется для разделения групп разрядов, а точка - для отделения дроб¬ 
ной части. 

Решение 

Обязательные целая и дробная части: 

~[0-9]{1,3}(, [0-9]{3})*\. [0-9]+$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуіЪоп, КиЪу 

Обязательная целая часть и необязательная дробная. Если дробная 
часть опущена, десятичная точка также должна быть опущена. 

~[0-9]{1,3}(,[0-9]{3})*(\.[0-9]+)?$ 

Параметры: нет 

Диалекты: ^ЕТ, ^аѵа., ^ѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЪу 

Необязательная целая часть и необязательная дробная. Если дробная 
часть опущена, десятичная точка также должна быть опущена. 

~([0-9]{1,3}(, [0-9]{3})*(\.[0-9]+)? |Ѵ [0-9]+)$ 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуНюп, КиЪу 

Предыдущее регулярное выражение, исправленное для поиска числа 
в текстовом документе: 

\Ь[0-9]{1,3}(,[0-9]{3})*(\.[0-9]+)?\Ь|\.[0-9]+\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуНюп, КиЪу 

Обсуждение 

Поскольку все эти регулярные выражения предназначены для того, что¬ 
бы обеспечить совпадение с вещественными числами, в них применя¬ 
ются те же приемы, что и в предыдущем рецепте. Единственное отли¬ 
чие состоит в том, что теперь для сопоставления с целой частью вместо 
выражения <[0-9]+> используется выражение <[0-9]{1,3}(,[0-9]{3})*>. Это 
регулярное выражение совпадает с последовательностью от 1 до 3 цифр, 
за которой следует ноль или более групп, состоящих из запятой и трех 
цифр. 

Мы не можем использовать выражение <[0-9]{0,3}(, [0-9]{3})*>, чтобы обес¬ 
печить необязательность целой части, потому что оно совпадает с числа¬ 
ми, начинающимися с запятой (например, ,123 ). Это та же ловушка со 
всеми необязательными элементами, которая описывалась в предыду- 
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щем рецепте. Чтобы сделать целую часть необязательной, мы не изме¬ 
няем элемент регулярного выражения, соответствующий целой части 
числа, а делаем необязательной всю целую часть целиком. Последние 
два регулярных выражения в решении делают это с помощью конструк¬ 
ции выбора. Регулярное выражение для необязательной целой части 
и обязательной дробной объединено с регулярным выражением, совпа¬ 
дающим с дробной частью при отсутствующей целой части. В результа¬ 
те было получено регулярное выражение, в котором и целая, и дробная 
части являются необязательными, но не одновременно. 

См. также 

Все рецепты в этой главе демонстрируют разные способы поиска раз¬ 
личных типов чисел с применением регулярных выражений. В рецеп¬ 
те 6.12 демонстрируется, как реализовать добавление разделителей 
групп разрядов в числа, где они отсутствуют. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.6 говорится о границах слов. В рецепте 2.8 описывается 
применение оператора выбора. В рецепте 2.9 рассказывается о группи¬ 
ровке. В рецепте 2.12 объясняется, как организовать сопоставление 
с повторяющимися комбинациями символов. 

6.12. Добавление в числа 
разделителей групп разрядов 

Задача 

Требуется добавить запятые, играющие роль разделителей групп раз¬ 
рядов, в числа из четырех и более цифр. Эту операцию может потребо¬ 
ваться выполнять и с отдельными числами, и со всеми числами в стро¬ 
ке или в файле. 

Например, следующий текст: 

ТГіеге аге тоге ІіГіап 7000000000 реоріе іп ІіГіе ѵіогід іосіау. 

необходимо преобразовать так: 

ТІіеге аге тоге іПап 7,000,000,000 реоріе іп іРе ѵѵогісі іосіау. 

»зг * 


точки, кто-то символы подчеркивания, кто-то апострофы или пробе¬ 
лы. При необходимости вы можете заменить запятые в предлагае¬ 
мых вариантах текста замены на более подходящие для вас символы. 




«V 


у* 


Не во всех странах и языках в качестве разделителя групп разрядов 
используется один и тот же символ. В решениях, представленных 
здесь, используется запятая, но кто-то с той же целью использует 
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Решение 

Следующие решения одинаково хорошо справляются и с отдельными 
числами, и со всеми числами в строке. Они создавались для использо¬ 
вания в операциях поиска с заменой всех совпадений. 

Простое решение 

Регулярное выражение: 

[0-9](? = (?:[0-9]{3}) + (?! [0-9])) 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ЛѵаЗсгірі;, РСКЕ, Регі, РуНюп, КиЪу 

Данное регулярное выражение с успехом можно использовать во всех 
диалектах, охватываемых этой книгой, а вот замещающий текст ока¬ 
зывается менее переносимым. 

Замещающий текст: 

$&, 

Диалекты замещающего текста: .ЫЕТ, ЛѵаЗсгірі, Регі 

$ 0 , 

Диалекты замещающего текста: .ЫЕТ, ^ѵа, ХКе^Ехр, РНР 

\ 0 , 

Диалекты замещающего текста: РНР, КиЪу 

\&, 

Диалект замещающего текста: КиЪу 

\д<о>, 

Диалект замещающего текста: РуѣЬоп 

Эти строки замещающего текста вставляют обратно совпавшее число, 
используя обратную ссылку (в данном случае целым совпадением будет 
единственная цифра), и запятую. Это регулярное выражение с заме¬ 
щающим текстом можно использовать в программной реализации опе¬ 
рации поиска с заменой, как описывается в рецепте 3.15. 

Определение позиции вставки разделителя 
с помощью ретроспективной проверки 

Регулярное выражение: 

( ? <=[0-9])(?=(?:[0-9]{3})+(?![0-9])) 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа, РСКЕ, Регі, РуНюп, КиЪу 1.9 
Замещающий текст: 


Диалекты замещающего текста: .ЫЕТ, ^ѵа, Регі, РНР, РуІЪоп, КиЪу 


і 
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В рецепте 3.14 объясняется, как использовать это регулярное выраже¬ 
ние в программной реализации операции поиска с заменой. 

Эта версия не может использоваться в ЗаѵаЗсгірІ и КиЬу 1.8, потому что 
эти диалекты не поддерживают ретроспективную проверку. Зато на 
этот раз замещающий текст оказался общим для всех диалектов, пото¬ 
му что он состоит из единственной запятой без каких-либо обратных 
ссылок. 

Обсуждение 

Введение 

Добавление разделителей групп разрядов в числа внутри документа, 
в данные и в выводе программы - это простой и эффективный путь по¬ 
вышения удобочитаемости. 

В некоторых языках программирования, описываемых в этой книге, 
имеются встроенные методы для добавления в числа разделителей 
групп разрядов в зависимости от национальных настроек. Например, 
в языке РуіЬоп можно использовать инструкцию 1оса1е.Гогта^('%сГ, 
1000000, Тгие), чтобы преобразовать числа 1000000 в строку ’ 1, 000,000’, ес¬ 
ли предположить, что в национальных настройках в качестве раздели¬ 
теля групп разрядов определена запятая. С другими национальными 
настройками роль такого разделителя может играть точка, символ под¬ 
черкивания, апостроф или пробел. 

Однако национальные настройки не всегда доступны, надежны или со¬ 
ответствуют поставленной задаче. В мире финансов, например, для 
разделения групп разрядов принято использовать запятую независимо 
от национальных настроек. При работе в текстовом редакторе пробле¬ 
ма интернационализации вообще может оказаться неразрешимой. По 
этим причинам и для простоты решения в этом рецепте предполагает¬ 
ся, что в качестве разделителей групп разрядов всегда используется за¬ 
пятая. В разделе «Варианты», следующем ниже, дополнительно пред¬ 
полагается, что роль разделителя целой и дробной части всегда играет 
точка. Если вам потребуется использовать иные символы, просто под¬ 
ставьте их. 


Добавление разделителей групп разрядов во все числа в файле или 
строке может улучшить удобочитаемость, однако прежде чем делать 
это, следует понять, какого рода содержимое находится в этой стро¬ 
ке или файле. Например, едва ли будет правильным добавлять раз¬ 
делители в числовые идентификаторы, даты и почтовые индексы. 
Документы и данные, содержащие подобные числовые обозначения, 
являются не лучшими кандидатами на автоматическую обработку 
процедурой добавления разделителей групп разрядов. 
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Простое решение 

Этому регулярному выражению соответствует любая одна цифра, пра¬ 
вее которой находятся другие цифры, число которых кратно трем. Оно 
найдет два совпадения в строке 12345678 - цифры 2 и 5. Для всех осталь¬ 
ных цифр не выполняется условие кратности трем количества цифр, 
следующих за ними. 

Используя обратную ссылку с индексом 0, соответствующий замещаю¬ 
щий текст вставляет совпавшую цифру обратно, добавляя вслед за ней 
запятую. В результате получается строка 12,345,678. Все просто! 

Чтобы объяснить, как регулярное выражение обнаруживает совпаде¬ 
ние с цифрой, необходимо разбить его на две части. Первая часть - это 
начальный символьный класс <[0-9]>, которому соответствует любая 
одиночная цифра. Вторая часть - позитивная опережающая проверка 
<(?=(?: [0-9]{3})+(?! [0-9]))>, которая вызывает отказ, если число цифр, сле¬ 
дующих далее, не кратно трем. Иными словами, опережающая провер¬ 
ка гарантирует совпадение регулярного выражения только с теми циф¬ 
рами, за которыми должна следовать запятая. Подробнее о том, как 
действует опережающая проверка, рассказывается в рецепте 2.16. 

Выражению внутри опережающей проверки <(?:[0-9]{3})+> соответству¬ 
ют группы из трех цифр. Негативная опережающая проверка <(?! [0-9])>, 
следующая далее, гарантирует отсутствие дополнительных цифр, сле¬ 
дующих за последней группой из трех цифр. В противном случае внеш¬ 
няя позитивная опережающая проверка удовлетворялась бы любым 
количеством последующих цифр, если оно не меньше трех. 

Определение позиции вставки разделителя 
с помощью ретроспективной проверки 

Это регулярное выражение является адаптацией предыдущего, но ему 
вообще не соответствует никакая цифра - оно совпадает только с пози¬ 
циями в числах, куда следует вставить запятую. Это позиции, где слева 
и справа есть цифры, причем справа число цифр кратно трем, а слева 
должна находиться хотя бы одна цифра. 

Опережающая проверка используется для поиска групп из трех цифр 
справа, как и в предыдущем регулярном выражении. Однако это регу¬ 
лярное выражение начинается не с символьного класса <[0-9]>, совпадаю¬ 
щего с единственной цифрой, а с проверки наличия слева хотя бы одной 
цифры с помощью позитивной ретроспективной проверки <(?<=[0-9])>. 
Без ретроспективной проверки регулярное выражение совпало бы, на¬ 
пример, с позицией слева от числа 123, в результате чего алгоритм поиска 
с заменой преобразовал бы его в ,123. Подробнее о том, как действуют рет¬ 
роспективные и опережающие проверки, рассказывается в рецепте 2.16. 

^ѵаЗсгір! и КиЬу 1.8 не поддерживают ретроспективную проверку, по¬ 
этому в этих диалектах невозможно использовать данное регулярное 
выражение. 
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Варианты 

Предотвращение добавления запятых 
после десятичной точки 

Предыдущие регулярные выражения добавляют запятые в любые по¬ 
следовательности из четырех и более цифр. Самая большая проблема 
этого простого решения состоит в том, что оно может добавлять запя¬ 
тые после цифр, составляющих дробную часть числа, если за десятич¬ 
ной точкой следует хотя бы четыре цифры. Исправить этот недостаток 
можно двумя способами, описанными ниже. 

С помощью бесконечной ретроспективной проверки. Проблему можно 
легко решить, если внутри ретроспективной проверки использовать 
бесконечный квантификатор, такой как <+>, или хотя бы квантифика¬ 
тор с достаточно большим количеством повторений, такой как <{1,100}>. 

Регулярное выражение: 

[0-9](?=(?:[0-9]{3})+(?![0-9]))(?<!\.[0-9]+) 

Параметры: нет 
Диалект: .ЫЕТ 

[0-9](?=(?:[0-9]{3>)+(?![0-9]))(?<!\.[0-9]{1,100}) 

Параметры: нет 
Диалекты: .МЕТ, ^ѵа 

Замещающий текст: 

$ 0 , 

Диалекты замещающего текста: .МЕТ, ^ѵа 

Первое регулярное выражение поддерживается только диалектом .МЕТ 
из-за квантификатора <+> в ретроспективной проверке. Второе регуляр¬ 
ное выражение можно использовать в диалектах .МЕТ и ^ѵа, потому 
что диалект ^ѵа поддерживает конечные квантификаторы внутри рет¬ 
роспективных проверок - даже достаточно длинные интервальные кван¬ 
тификаторы, такие как {1,100}. То есть версия только для .МЕТ будет пра¬ 
вильно работать с любыми числами, а версия для ^ѵа будет препятство¬ 
вать добавлению запятых только при работе с числами, содержащими 
не более 100 цифр после десятичной точки. Второе число в квантифика¬ 
торе <{1,100}> можно увеличить, если возникнет потребность обрабаты¬ 
вать числа с большим количеством цифр после десятичной точки. 

В обоих регулярных выражениях новая ретроспективная проверка по¬ 
мещена в конец шаблона. У кого-то интуитивно может возникнуть же¬ 
лание реструктурировать регулярное выражение и перенести ретро¬ 
спективную проверку в начало, но мы отказались от такого решения из 
соображений эффективности. Так как ретроспективная проверка явля¬ 
ется самой медленной частью регулярного выражения, размещение ее 
в конце позволяет регулярному выражению быстрее терпеть неудачу 
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в испытуемых строках, где до ретроспективной проверки дело может 
просто не дойти. 

Поиск с заменой внутри совпавших чисел. При использовании других 
диалектов, отличных от .ЫЕТ и Лѵа, отсутствует возможность загля¬ 
дывать назад в испытуемой строке на произвольную глубину, но тем не 
менее вы все же можете использовать ретроспективную проверку фик¬ 
сированной длины для выявления чисел, которым не предшествует де¬ 
сятичная точка. Это позволит идентифицировать числа, в которые 
можно добавлять запятые (и корректно исключать любые последова¬ 
тельности цифр, следующие за десятичной точкой), но, так как ей будет 
соответствовать число целиком, нельзя просто включить запятую в за¬ 
мещающий текст. 

В окончательном решении требуется использовать два регулярных вы¬ 
ражения. Внешнее выражение будет отыскивать числа, в которые сле¬ 
дует добавить запятые, а внутреннее - выполнять поиск позиций для 
вставки запятых внутри найденных чисел, в ходе операции поиска с за¬ 
меной. 

Внешнее регулярное выражение: 

\Ь(?<!\.)[0-9]{4, } 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, РОКЕ, Регі, РуІЬоп, КиЬу 1.9 

Это регулярное выражение совпадает с числами целиком, содержащи¬ 
ми четыре и более цифр, которым не предшествует точка. Проверка 
границы слова в начале регулярного выражения гарантирует, что сов¬ 
павшее число будет находиться в начале строки или будет отделяться 
от других чисел и слов. В противном случае регулярное выражение сов¬ 
падало бы, например, с фрагментом 2345 в числе 0.12345. Иными слова¬ 
ми, без проверки границы слова совпадение может начинаться со вто¬ 
рой цифры после десятичной точки, так как точка не предшествует 
цифре в этой позиции. 

Внутреннее регулярное выражение и замещающий текст остаются та¬ 
кими же, как в разделе «Простое решение» выше. 

Замена совпадений, найденных внутренним регулярным выражением 
в каждом совпадении с внешним регулярным выражением, должна вы¬ 
полняться с помощью программного кода, а не с применением простой 
строки замещающего текста. При таком подходе мы сможем использо¬ 
вать внутреннее регулярное выражение внутри кода, выполняющего 
поиск чисел, пригодных для замены, с помощью внешнего регулярного 
выражения. На первый взгляд предлагаемое решение кажется слож¬ 
ным, однако все языки программирования, охватываемые этой кни¬ 
гой, делают его реализацию достаточно прямолинейной. 

Ниже приводится законченное решение для КиЪу 1.9: 
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зиЬіесТ.дзиЬ(/\Ь(?<!\.)[0-9]{4,}/) {|таІісГі | 

таГсІі. дзиЬ(/[ 0-9 ](?=(?: [0-9] {3})+(?! [0-9]))/, ДО, ') 

} 

Переменная зиЬ]ес1: в этом фрагменте хранит испытуемый текст, где тре¬ 
буется выполнить подстановку запятых. Строковый метод дзиЬ в КиЬу 
выполняет глобальный поиск с заменой. Помощь в реализации этого ре¬ 
шения на других языках программирования можно получить в рецеп¬ 
те 3.16, где описывается, как выполнить замену совпадений фрагмента¬ 
ми, сгенерированными в программном коде. Там приводятся примеры, 
демонстрирующие реализацию описываемого приема на каждом языке. 

Отсутствие поддержки ретроспективных проверок в ^ѵаЗсгірІ и Ки¬ 
Ьу 1.8 ухудшает переносимость этого решения из-за использования рет¬ 
роспективной проверки во внешнем регулярном выражении. Эту про¬ 
блему можно решить в ^ѵаЗсгір! и КиЬу 1.8 включением в совпадение 
символа, предшествующего числу, если таковой имеется, и потребо¬ 
вать, чтобы он отличался от цифры и точки. Этот символ можно затем 
вставить обратно в текст, используя обратную ссылку в сгенерирован¬ 
ном замещающем тексте. 

Ниже приводится решение на ЛѵаВсгірІ, реализующее этот прием: 

зиЬ]ес1:. гер1асе(/(~|["0-9. ])([0-9]{4, })/д, Гипсіііоп ($0, $1, $2) { 
геіигп $1 + $2. геріасе (/[0-9](?=(?: [0-9]{3>)+(?! [0-9]))/д, 

}); 

См. также 

Рецепт 6.11, где объясняется, как находить числа, в которых уже при¬ 
сутствует запятая, используемая для разделения групп разрядов. 

Все остальные рецепты в этой главе демонстрируют разные способы по¬ 
иска различных типов чисел с применением регулярных выражений. 

6.13. Римские числа 

Задача 

Необходимо обеспечить совпадение с римскими числами, такими как 
IV, XIII и МѴІІІ. 

Решение 

Римские числа без проверки на корректность: 

~[мосі_хѵі]+$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 

Современные римские числа, строгое соответствие: 
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''(?=[М0СІХѴІ])М*(С[М0]|0?С{0 І 3})(Х[СІ]|1?Х{0,3})(І[ХѴ]|Ѵ?І{0,3})$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, 4аѵа8сгір1, РСКЕ, Регі, Руійоп, КиЪу 

Современные римские числа, гибкое соответствие: 

''(?=[М0СІХѴІ] )М*(С[М0] I 0?С*)(Х[С1] 1 1?Х*)(І[ХѴ] I Ѵ?І*)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, 4аѵа8сгір1, РСКЕ, Регі, РуІЪоп, КиЪу 

Простые римские числа: 

~(?=[М0СІ_ХѴІ] )М*0?С{0, 4}Ь?Х{0,4}V?I{0,4}$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Заѵа, Заѵа8сгірі;, РСКЕ, Регі, РуІЪоп, КиЪу 

Обсуждение 

Римские числа записываются с помощью символов М, Б, С, Ь, X, V и I, 
представляющих значения 1000, 500, 100, 50, 10, 5 и 1 соответственно. 
Первому регулярному выражению соответствуют любые строки, состо¬ 
ящие из этих символов, без проверки порядка следования и количества 
символов, допустимых в римских числах. 

В наше время (имеются в виду последние несколько сотен лет) запись 
римских чисел регулируется сводом строгих правил. Эти правила обе¬ 
спечивают точное положение римских цифр в числах. Например, 4 все¬ 
гда записывается как IV и никогда как ИП. 

Второе регулярное выражение в решении соответствует только рим¬ 
ским числам, которые следуют этим правилам. 

Каждая ненулевая цифра в десятичном представлении в римской форме 
записи записывается отдельно. Число 1999 записывается как МСМХСІХ, 
где М - это 1000, СМ - это 900, ХС - это 90 и IX - это 9. Это число нель¬ 
зя записать как МІМ или ІММ. 

Тысячи записываются просто: по одному символу М на каждую тыся¬ 
чу, что легко можно выразить как <М*>. 

Сотни могут записываться 10 разными способами, совпадения с которы¬ 
ми мы обеспечили с помощью конструкций выбора. Выражение <С[МЭ]> 
соответствует формам записи СМ и СБ, которые представляют числа 
900 и 400. <Э?С{0, 3}> соответствует формам записи БССС, БСС, БС, Б, 
ССС, СС, С и пустой строке, представляющим 800, 700, 600, 500, 300, 
200, 100 и «ничто». Это дает нам все 10 цифр в разряде сотен. 

Совпадение с десятками обеспечивает выражение <Х[СІ_] | [_?Х{0,3}>, а с еди¬ 
ницами - выражение <І[ХѴ]|Ѵ?І{0,3}>. В них используется тот же синтак¬ 
сис, но используются другие символы. 
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Все четыре части регулярного выражения могут быть необязательны¬ 
ми, потому что в любом из разрядов может быть ноль. У римлян не было 
символа или слова, представляющего ноль. Поэтому ноль в римских 
числах не записывается. Несмотря на то что каждая часть римского 
числа сама по себе может быть необязательной, тем не менее все они не 
могут быть необязательными одновременно. Мы должны гарантировать 
невозможность совпадений нулевой длины с регулярным выражением. 
Для этого мы добавили в начало регулярного выражения опережаю¬ 
щую проверку <(?=[М0СІ_ХѴІ])>. Эта опережающая проверка, как описы¬ 
вается в рецепте 2.16, проверяет возможность совпадения хотя бы с од¬ 
ним символом. Опережающая проверка не поглощает символы, поэто¬ 
му совпадения с ней могут повторно совпасть с остальной частью регу¬ 
лярного выражения. 

Третье регулярное выражение немного более гибкое. Оно допускает на¬ 
личие таких цифр, как ПИ, и при этом принимает IV. 

Четвертое регулярное выражение соответствует римским числам, кото¬ 
рые записаны без применения операции вычитания, из-за чего все сим¬ 
волы должны быть записаны в порядке убывания их значений. Число 4 
должно записываться как ПП, а не как IV. Сами римляне записывали 
числа именно таким способом. 


стовом документе. Если потребуется выполнить поиск римского 
числа в объемном тексте, можно заменить <~> и <$> на <\Ь>. 




т% 
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Все регулярные выражения заключены в якорные метасимволы (ре- 
-- ѵ I цепт 2.5), чтобы обеспечить проверку, является ли весь испытуемый 
4 ^ іУ; текст римским числом, в противовес поиску римского числа в тек- 


Преобразование римских чисел в десятичные 

Следующая функция на языке Регі использует «строгое» регулярное 
выражение из этого рецепта, чтобы убедиться, что полученная ею стро¬ 
ка является римским числом. Затем она использует регулярное выраже¬ 
ние <[М01Ѵ]|С[М0]?|Х[СІ_]?|І[ХѴ]?>, чтобы обойти в цикле все цифры в числе 
и сложить их значения: 

зиЬ готап2с1есіта1 { 
ту $готап = зНШ; 

И ($готап =" 

го/''(?=[МОСІ_ХѴІ]) 

(М*) # 1000 

(С[М0] I0?С{0,3}) # 100 
(Х[СІ]|І_?Х{0,3}) # 10 
(І[ХѴ]|Ѵ?І{0, 3}) # 1 
$/іх) 

{ 

# Найдено римское число 

ту %г2с! = (’Г => 1, ’ІѴ => 4, ’Ѵ => 5, ’ІХ’ => 9, 
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'X' => 10, 'ХІ_' => 40, 'І_' => 50, 'ХС => 90, 

'С => 100, ‘СО’ => 400, ’Ѵ => 500, 'СМ' => 900, 

■М' => 1000); 
ту Зсіесітаі = 0; 

\л/0і1е ($готап =“ т/[М01_Ѵ] | С[МО]? |Х[СІ_]? | І[ХѴ]?/ід) { 

Зсіесітаі += $г2сІ{ис($&) }; 

} 

геіигп $с!есіта1; 

} еізе { 

# Это не римское число 
геіигп 0; 

} 

} 

См. также 

Все остальные рецепты в этой главе демонстрируют разные способы по¬ 
иска различных типов чисел с применением регулярных выражений. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.8 описывается применение оператора выбора. В рецепте 2.9 
рассказывается о группировке. В рецепте 2.10 обсуждаются обратные 
ссылки. В рецепте 2.12 объясняется, как организовать сопоставление 
с повторяющимися комбинациями символов. В рецепте 2.16 рассказы¬ 
вается об опережающих и ретроспективных проверках. 

В исходном программном коде, который приводится в этом рецепте, ис¬ 
пользуется прием обхода всех совпадений, обсуждавшийся в рецеп¬ 
те 3.11. 
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Как было показано в рецепте 3.22, регулярные выражения отлично под¬ 
ходят для парсинга исходного текста и с успехом могут использоваться 
для конструирования парсеров, выполняющих разбор файлов в нестан¬ 
дартных форматах или с исходным кодом на языках сценариев. В этой 
главе приводится множество рецептов выделения синтаксических эле¬ 
ментов, широко используемых в языках программирования и в других 
текстовых форматах. Регулярные выражения из этих рецептов можно 
объединять в более крупные регулярные выражения для использова¬ 
ния в парсере. Эти регулярные выражения могут также пригодиться 
при редактировании исходного кода в текстовом редакторе и для поис¬ 
ка с помощью инструмента &гер. 

Во второй части этой главы показано, как с помощью регулярных выра¬ 
жений извлекать информацию из файлов журналов. В основном в ре¬ 
цептах будут использоваться файлы журналов веб-сервера, так как они 
доступны большинству читателей и многие даже могут быть знакомы 
с их форматом. Приемы, демонстрируемые в этих рецептах, легко мож¬ 
но распространить на любые другие форматы файлов журналов. 

7.1. Ключевые слова 

Задача 

Многим читателям приходится работать с файлами форм, используе¬ 
мыми в прикладных программах. Слова «епй», «іп», «іпііпе», «іпЬегіІ- 
ей», «Нет» и «оЬіесі» являются зарезервированными в этом формате. 1 


1 Идеей для этого рецепта послужили файлы форм в БеІрЬі, в которых ис¬ 
пользуются именно эти ключевые слова, за исключением «іп», которое бы¬ 
ло добавлено здесь для иллюстрации некоторых ловушек. 
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Необходимо написать регулярное выражение, совпадающее с любым из 
этих ключевых слов. 

Решение 

Простое решение выглядит достаточно прямолинейным и может ис¬ 
пользоваться со всеми диалектами, описываемыми в этой книге: 

\Ь(?: епсі | іп | іпііпе | іпІпегі1:есІ | Пет | оЬ]есі)\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ИЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Реіі, РуіЬоп, КиЪу 

Для диалектов, поддерживающих атомарную группировку, это регу¬ 
лярное выражение можно оптимизировать, как показано ниже: 

\Ь(?>епсІ | іп (?: Ііпе | Пе гііесі )? | Пет | оЬ]есі)\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, Руійоп, КиЬу 

Обсуждение 

Реализовать в регулярном выражении сопоставление со словом из спи¬ 
ска очень просто. Достаточно использовать конструкцию выбора. При¬ 
сутствие метасимволов границы слова в начале и в конце регулярного 
выражения гарантируют совпадение с целым словом. Регулярное выра¬ 
жение должно находить совпадение іпііпе , а не іп, если файл содержит 
ключевое слово іпііпе; оно также должно терпеть неудачу при сопостав¬ 
лении со словом іпіегезііпд. Так как оператор выбора имеет самый низ¬ 
кий приоритет среди всех операторов регулярных выражений, мы помес¬ 
тили список ключевых слов в группу. Здесь для большей эффективности 
используется несохраняющая группа. При использовании этого регу¬ 
лярного выражения в составе более крупного регулярного выражения, 
напротив, может оказаться желательным использовать сохраняющую 
группировку, чтобы иметь возможность определить, действительно ли 
регулярное выражение совпало с ключевым словом или с чем-то иным. 

В диалектах, поддерживающих атомарную группировку, это регулярное 
выражение можно оптимизировать. Когда первое выражение из раздела 
«Решение» встречает слово іпіегезііпд, оно обнаруживает совпадение 
с альтернативой <іп>. Затем граница слова в конце выражения вынужда¬ 
ет его потерпеть неудачу. Далее механизм регулярных выражений вы¬ 
полнит возврат, тщетно пытаясь опробовать остальные альтернативы. 

Заключив конструкцию выбора внутрь атомарной группировки, мы 
препятствуем механизму регулярных выражений выполнить возврат 
после неудачи сопоставления со второй границей слова <\Ь>. Благодаря 
этому скорость сопоставления увеличивается. 

Так как регулярное выражение не будет выполнять возвраты, его необ¬ 
ходимо скомпоновать так, чтобы они и не потребовались для обнаруже- 
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ния совпадения с любым ключевым словом. Когда первое регулярное 
выражение встречает слово іпііпе, оно сначала обнаруживает совпаде¬ 
ние с іп. Затем попытка сопоставления со второй границей слова терпит 
неудачу. Механизм регулярных выражений выполняет возврат, находит 
совпадение с альтернативой іпііпе и второй границей слова, в результате 
чего обнаруживается совпадение со всем регулярным выражением. При 
использовании атомарной группировки возвраты выполняться не будут, 
поэтому фрагмент конструкции выбора <іп | іпііпе | іпілегі1:есІ> в первом ре¬ 
гулярном выражении пришлось преобразовать в <іп(?:1іпе|ІіегііесІ)?> во 
втором регулярном выражении. Первое регулярное выражение пытает¬ 
ся найти совпадения іп, іпііпе и іпІпеггЕесІ именно в таком порядке, пото¬ 
му что оператор выбора отличается «нетерпеливостью». Второе регуляр¬ 
ное выражение пытается сначала найти совпадение с іпііпе или іпііегііесі 
благодаря максимальному квантификатору и только потом проверяет 
совпадение с іп. Только после обнаружения совпадения с іпііпе , іпііегііесі 
или іп второе регулярное выражение выполняет сопоставление со вто¬ 
рой границей слова. Если граница слова не обнаружена, нет смысла воз¬ 
вращаться, чтобы опробовать другие альтернативы, что мы и выразили 
с помощью атомарной группировки. 

Варианты 

Простого сопоставления с ключевыми словами может оказаться недо¬ 
статочно. Эти слова не интерпретируются как зарезервированные в фай¬ 
лах форм, если они заключены в апострофы. Если форма содержит эле¬ 
мент управления с заголовком «ТЬе епсі із пеаг», в файле формы он бу¬ 
дет храниться в следующем виде: 

оЬ]есі Виііопі : ТВиііоп 

Сарііоп = ’ТОе епсі із пеаг’ 
епсі 

В этом фрагменте второе вхождение епсі является ключевым словом, 
а первое - нет. Чтобы только второе вхождение епсі интерпретировалось 
как ключевое слово, необходимо более сложное решение. 

Нет простого способа заставить регулярное выражение совпадать толь¬ 
ко с ключевыми словами, находящимися не внутри строки. Зато легко 
можно заставить его совпадать и со строками, и с ключевыми словами. 

\Ь( епсі | іп | іпііпе | іпііегііесі|ііет|оЬ]есі)\Ь|' [~'\г\п]*(?:’’ [~’\г\п]*)*’ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Когда регулярное выражение встречает апостроф, оно совпадает со всей 
строкой, вплоть до следующего апострофа. Следующая попытка сопо¬ 
ставления будет выполняться после конца строки. Благодаря этому ре¬ 
гулярное выражение не будет искать совпадения с ключевыми словами 
внутри строк, вместо этого оно будет совпадать с целыми строками. 
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В предыдущем примере регулярное выражение сначала найдет совпа¬ 
дение оЬіесІ , затем ТИе епсі із пеаг’ и наконец епсі в конце испытуемого 
текста. 

Чтобы иметь возможность определить, с чем именно совпало регуляр¬ 
ное выражение, со строкой или с ключевым словом, для списка ключе¬ 
вых слов потребовалось использовать сохраняющую группу вместо не¬ 
сохраняющей. Когда регулярное выражение совпадает с ключевым сло¬ 
вом, оно будет сохранять совпадение с первой (и единственной) сохра¬ 
няющей группой. При совпадении со строкой первая сохраняющая 
группа останется пустой, так как она не будет участвовать в сопостав¬ 
лении в этом случае. 

При конструировании парсеров, как описывалось в рецепте 3.22, прак¬ 
тически всегда приходится объединять регулярное выражение для по¬ 
иска ключевых слов с регулярными выражениями для поиска строк 
и всех остальных лексем, встречающихся в файлах данного формата. 
При этом используется тот же прием, что применялся здесь для ключе¬ 
вых слов и строк. Просто регулярное выражение будет иметь намного 
больше альтернатив, охватывающих весь синтаксис формата файлов. 
Описанный прием помогает автоматически избежать совпадений с клю¬ 
чевыми словами внутри строк. 

При поиске совпадений с ключевыми словами в других форматах фай¬ 
лов или языках программирования сопоставления с границами слов 
может оказаться недостаточно. Например, во многих языках $епсІ явля¬ 
ется именем переменной, а епсі - ключевым словом. В таких ситуациях 
проверки границ слов недостаточно, чтобы гарантировать отсутствие 
совпадения с ключевым словом там, где его не должно быть. Выраже¬ 
ние <\Ьепс1\Ь> совпадет с епсі в идентификаторе $епсІ. Знак доллара не яв¬ 
ляется символом слова, а буквы являются. Метасимвол <\Ь> найдет сов¬ 
падение между знаком доллара и буквой. 

Решить эту проблему можно с помощью ретроспективной проверки. Что¬ 
бы убедиться в отсутствии знака доллара перед ключевым словом, в вы¬ 
ражении <(?<! [$\\л/])(? :епс! | іп | іпііпе | іпіпегіііесі | Нет |оЬ^ес1;)\Ь>, например, ис¬ 
пользуется негативная ретроспективная проверка. Негативная ретро¬ 
спективная проверка включает <\ю, и нам все еще необходимо использо¬ 
вать проверку совпадения с границей слова <\Ь> в конце, чтобы убедиться, 
что найденное ключевое слово не является частью более длинного слова. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.6 говорится о границах слов. В ре¬ 
цепте 2.8 описывается применение оператора выбора. В рецепте 2.14 
объясняются особенности атомарной группировки, а в рецепте 2.12 опи¬ 
сываются приемы использования квантификаторов для оптимизации 
регулярных выражений. В рецепте 2.16 рассказывается об опережаю¬ 
щих и ретроспективных проверках. 
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7.2. Идентификаторы 

Задача 

Требуется написать регулярное выражение, совпадающее с любым иден¬ 
тификатором в исходном программном коде. Синтаксис языка програм¬ 
мирования требует, чтобы идентификаторы начинались с символа под¬ 
черкивания или буквы А8СП. Последующими символами в идентифи¬ 
каторе могут быть символы подчеркивания, буквы А8СП или цифры. 
Идентификатор может иметь длину от 1 до 32 символов. 

Решение 

\Ь[а-2_][0-9а-2_]{0,31}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, Заѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

Символьный класс <[а- 2 _]> совпадает с первым символом в идентифика¬ 
торе, а символьный класс <[0-9а-г_]> - со вторым и последующими сим¬ 
волами. Регулярное выражение допускает наличие от 0 до 31 последую¬ 
щих символов. Здесь вместо <\м> используется <[0-9а-і_]>, что избавляет 
от необходимости беспокоиться по поводу совпадения сокращения <\м> 
с символами, не входящими в набор А8СІІ. Мы не включили буквы 
верхнего регистра в символьный класс, потому что тот же эффект дает 
включение параметра нечувствительности к регистру символов, а сам 
символьный класс оказывается немного короче. Чтобы исключить за¬ 
висимость от параметра нечувствительности к регистру, можно исполь¬ 
зовать выражение <\Ь[а-2А-2_][0-9а-2А-2_]{0,31}\Ь>. 

Наличие двух границ слова <\Ь> гарантирует, что регулярное выраже¬ 
ние не совпадет с последовательностью из более чем 32 алфавитно-циф¬ 
ровых символов. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. 

7.3. Числовые константы 

Задача 

Требуется написать регулярное выражение, совпадающее с десятичны¬ 
ми целыми числами, не начинающимися с нуля; с восьмеричными це¬ 
лыми числами, начинающимися с нуля; с шестнадцатеричными числа¬ 
ми, начинающимися с префикса Ох; с двоичными числами, начинаю- 
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щимися с префикса ОЬ. Целые числа могут заканчиваться символом I, 
обозначающим длинное целое значение. 

Регулярное выражение должно иметь отдельные (именованные) сохра¬ 
няющие группы для десятичных, восьмеричных, шестнадцатеричных 
и двоичных чисел, сохраняемых без каких-либо префиксов или оконча¬ 
ний, чтобы программный код, использующий это регулярное выраже¬ 
ние, легко мог определить систему счисления и преобразовать текст 
в фактическое число. Для чисел с окончанием І_ также должна быть от¬ 
дельная сохраняющая группа, чтобы упростить идентификацию типа 
целого числа. 

Решение 

\Ь(?:(?<сІес>[1-9][0-9]*) 

| (?<осѣ>0[0-7]* ) 

| 0х(?<Ііех>[0-9А-Р]+) 

| 0Ь(?<Ьіп>[ 01 ]+) 

)(?<1_>1_)?\Ь 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, Заѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

\Ь(?: (?Р<сІес>[ 1-9][0-9]*) 

| (?Р<ос1>0[0-7]*) 

| 0х(?Р<(іех>[0-9А-Р]+) 

| 0Ь(?Р<Ьіп>[01 ]+) 

)(?Р<І_>І.)?\Ь 

Параметры: режим свободного форматирования, нечувствительность 

к регистру символов 

Диалекты: РСКЕ 4, Регі 5.10, РуІЬоп 

\Ь(?:([1-9][0-9]*)| (0[0-7]*) 10х([0-9А-Р]+) |0Ь([01]+))(І_)?\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .1ЧЕТ, Заѵа, ^ѵа8сгірі, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Данное регулярное выражение фактически является комбинацией ре¬ 
шений, представленных в рецептах 6.5 (десятичные числа), 6.4 (восьме¬ 
ричные числа), 6.2 (шестнадцатеричные числа) и 6.3 (двоичные числа). 
Единственная цифра «ноль» может быть и десятичным, и восьмерич¬ 
ным числом. Однако это не имеет никакого значения, потому что во 
всех системах счисления цифра ноль всегда представляет число ноль. 
Поэтому из регулярного выражения, совпадающего с десятичными 
числами, была удалена та его часть, которая соответствует числу ноль. 

Все четыре альтернативы заключены в несохраняющую группу, чтобы 
гарантировать, что границы слова и окончание І_ будут применяться 
к выражению в целом, а не только к первой и последней альтернативам. 
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Именованные сохраняющие группы упрощают чтение регулярного вы¬ 
ражения и преобразование совпавшего фрагмента в фактическое число 
в программном коде. Диалекты ^ѵаЗсгірі и КиЪу 1.8 не поддерживают 
именованное сохранение. Для этих языков предлагается альтернатив¬ 
ное решение на основе пяти нумерованных сохраняющих групп. 

См. также 

В главе 6 во всех подробностях обсуждается тема сопоставления с целы¬ 
ми и вещественными числами. Помимо приемов, описанных там, в этом 
рецепте использовалось именованное сохранение (рецепт 2.11) и режим 
свободного форматирования (рецепт 2.18). 

7.4. Операторы 

Задача 

Для реализации схемы подсветки синтаксиса в текстовом редакторе 
потребовалось написать регулярное выражение, совпадающее с любы¬ 
ми символами, которые могут использоваться в качестве операторов 
в языке программирования, для которого создается схема: -, +, *, /, =, <, 
>, %, |, !, ~ и ?. Регулярное выражение не должно проверять, являют¬ 

ся ли комбинации символов допустимыми операторами. Это не являет¬ 
ся задачей схемы подсветки синтаксиса - она просто должна подсвечи¬ 
вать все символы операторов. 

Решение 

[-+*/=<>%&"|!~?] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Для тех, кто прочитал рецепт 2.3, решение будет очевидным. Кого-то 
может удивить, почему это задание было включено в виде отдельного 
рецепта. 

В центре внимания этой главы находятся регулярные выражения, ко¬ 
торые можно использовать в крупных системах, таких как схемы под¬ 
светки синтаксиса. Подобные системы часто объединяют регулярные 
выражения с использованием оператора выбора, что может приводить 
к появлению ловушек, не всегда очевидных, если рассматривать регу¬ 
лярное выражение в изоляции. 

Одна из таких ловушек состоит в том, что система, использующая данное 
регулярное выражение, наверняка будет использовать другие регуляр¬ 
ные выражения, совпадающие с теми же символами. Во многих языках 
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программирования символ / используется как оператор деления, а па¬ 
ра символов // начинает комментарий. Если объединить регулярное 
выражение из этого рецепта с регулярным выражением из рецепта 7.5 
в выражение < (?<орега1;ог>[-+*/= < >%& Л |! ~?])|(?<соттеп1:>//.*)>, можно будет 
обнаружить, что система не находит комментарии. Все символы слэша 
будут распознаваться как операторы. 

Проблему можно исправить, если поменять альтернативы местами: 

<(?<соттеп1:>//.*)|(?<орега1:ог>[-+*/=<>%&''|! ~?] )>. Это регулярное выражение 
всегда будет совпадать с двумя идущими подряд слэшами как с одно¬ 
строчным комментарием. Попытка найти совпадение с каким-либо опе¬ 
ратором не будет выполняться, пока первая половина регулярного вы¬ 
ражения не потерпит неудачу. Если у вас имеется приложение, объеди¬ 
няющее несколько регулярных выражений, такое как текстовый ре¬ 
дактор с подсветкой синтаксиса на основе регулярных выражений, вам 
потребуется узнать, в каком порядке это приложение объединяет регу¬ 
лярные выражения. 

Еще одна ловушка кроется в попытке «оптимизировать» регулярное 
выражение путем добавления квантификатора после символьного клас¬ 
са: <[-+*/ = о%&~ |! "?]+>. Так как от системы подсветки синтаксиса требует¬ 
ся обеспечить подсветку всех символов операторов, более эффективным 
выглядит решение подсветить сразу все операторы, следующие друг за 
другом. И такое решение было бы оправданным, если бы подсветка опе¬ 
раторов была единственной обязанностью схемы. Но оно не дает желае¬ 
мого результата в некоторых ситуациях, даже когда регулярные вы¬ 
ражения объединяются в правильном порядке, как было определено 
в предыдущем абзаце: <(?<соттеп1:>//.*)|(?<орега1ог>[-+*/- < >%&''1 !“?]+)>. Это 
регулярное выражение будет правильно подсвечивать операторы и од¬ 
нострочные комментарии, кроме случая, когда однострочный коммен¬ 
тарий следует сразу за оператором. Когда регулярное выражение встре¬ 
тит последовательность символов !//Ьапд, альтернатива «соттепЬ» по¬ 
терпит неудачу при попытке найти совпадение с *. Затем регулярное 
выражение попытается сопоставить альтернативу «орегаіог». Но она 
совпадет не только с !; в совпадение попадут три символа [//> потому что 
квантификатор <+> после символьного класса постарается найти макси¬ 
мально большое количество символов операторов. После обнаружения 
этого совпадения регулярное выражение вновь попытается найти сов¬ 
падение в оставшейся части строки Ьапд и потерпит неудачу, потому что 
символы, начинающие однострочный комментарий, уже были погло¬ 
щены предыдущим совпадением. 

Если отбросить квантификатор и использовать выражение <(?<соттеп1:> 
//•*)1(? < орега1юг>[-+*/-<>%& , '|! ~?])>, альтернатива «орегаіог» совпадет толь¬ 
ко с символом ]_ в строке ! //Ьапд, а в следующей попытке сопоставления 
альтернатива «соттепі;» совпадет с остатком строки //Ьапд. 
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7.5. Однострочные комментарии 

Задача 

Необходимо написать регулярное выражение, совпадающее с коммен¬ 
тарием, начинающимся с пары символов // и продолжающимся до кон¬ 
ца строки. 

Решение 

//.* 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ЛѵаЗсгірѣ, РСКЕ, Регі, РуНюп, КиЪу 

Обсуждение 

Символ прямого слэша не имеет специального значения в регулярных 
выражениях, поэтому совпадение с началом комментария можно обес¬ 
печить двумя литеральными символами <//>. В некоторых языках про¬ 
граммирования символы слэша применяются для ограничения регу¬ 
лярных выражений. При использовании этого регулярного выражения 
в программном коде может понадобиться экранировать слэши, как 
описывается в рецепте 3.1. 

Подвыражение <. *> совпадает с любой последовательностью символов до 
конца строки. Здесь не требуется предпринимать какие-либо действия, 
чтобы заставить регулярное выражение останавливаться в конце стро¬ 
ки. Достаточно убедиться, что параметр «точке соответствуют границы 
строк» был выключен перед применением этого регулярного выражения. 

См. также 

Рецепт 2.4, где говорится, что точке соответствуют любые символы. 

7.6. Многострочные комментарии 

Задача 

Необходимо написать регулярное выражение, совпадающее с коммен¬ 
тарием, начинающимся с пары символов /* и заканчивающимся парой 
символов */. Вложенные комментарии не допускаются. Любые пары 
символов /* между /* и */ должны интерпретироваться как часть ком¬ 
ментария. Комментарии могут занимать несколько строк в тексте. 

Решение 

/\*.*?ѵ/ 

Параметры: точке соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 
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Л*[\з\3]*?Ѵ/ 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵаВсгірі, РСКЕ, Регі, Руіііоп, КиЬу 

Обсуждение 

Символ прямого слэша не имеет специального значения в регулярных 
выражениях, а символ звездочки имеет. Поэтому необходимо экрани¬ 
ровать звездочку обратным слэшем. В результате получаются подвыра¬ 
жения </\*> и <\*/>, соответствующие парам символов /*_ и *[. Обратные 
и/или прямые слэши могут иметь специальное значение в строковых 
литералах, в программном коде, поэтому может понадобиться экрани¬ 
ровать слэши, как описывается в рецепте 3.1. 

Для совпадения со всем, что находится между двумя ограничителями 
комментария, используется подвыражение <.*?>. Параметр «точке соот¬ 
ветствуют границы строк», поддерживаемый большинством диалектов 
регулярных выражений, обеспечит распространение этого подвыраже¬ 
ния на несколько строк. Чтобы регулярное выражение прекратило со¬ 
поставление при встрече первой, а не последней в файле пары символов 
*/, следующей за /*, здесь используется минимальный квантификатор. 

Лѵа8сгір1 — единственный диалект из обсуждаемых в этой книге, не 
поддерживающий параметр «точке соответствуют границы строк». Ес¬ 
ли описываемую задачу потребуется решить на ЗаѵаЗсгірЪ без исполь¬ 
зования библиотеки ХКе^Ехр, для достижения того же эффекта можно 
использовать символьный класс <[\з\3]>. Несмотря на то что этот сим¬ 
вольный класс можно использовать и в других диалектах, поступать так 
не рекомендуется, так как механизмы регулярных выражений обычно 
оптимизируют сопоставление с точкой, которая является одной из про¬ 
стейших особенностей регулярных выражений. 

Варианты 

Если регулярное выражение предполагается использовать в системе, так 
или иначе связанной с редактированием исходного программного кода, 
может потребоваться сделать необязательной пару символов, закрываю¬ 
щих комментарий. В этом случае все, от начала комментария и до конца 
файла, будет интерпретироваться как комментарий, пока не будет введе¬ 
на пара символов */• Например, механизм подсветки синтаксиса в тек¬ 
стовых редакторах обычно действует именно так. Если сделать необяза¬ 
тельной пару символов, закрывающих комментарий, это никак не по¬ 
влияет на интерпретацию файлов, где все многострочные комментарии 
корректно закрыты. Квантификатор для закрывающей пары символов 
должен быть максимальным, чтобы он обнаруживал совпадение, если 
таковое имеется. Квантификатор для точки должен быть минималь¬ 
ным, чтобы сопоставление прекращалось при встрече первой же пары 
закрывающих символов. 
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Л* - *?(? Л*/)? 

Параметры: точке соответствуют границы строк 
Диалекты: .МЕТ, Лѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЬу 

/\*[\5\8]*?(?:\*/)? 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

См. также 

Рецепт 2.4, гда рассказывается о точке, а также о параметре, обеспечи¬ 
вающем ее совпадение с границами строк, и обходных решениях для 
ЗаѵаЗсгірі;. В рецепте 2.13 описываются различия между максималь¬ 
ными и минимальными квантификаторами. 

7.7. Все комментарии 

Задача 

Необходимо написать регулярное выражение, совпадающее с коммен¬ 
тариями обоих типов, однострочными и многострочными, как описы¬ 
вается в разделах «Задача» в двух предыдущих рецептах. 

Решение 

(?-з://.*)|(?з:/\*.*?\*/) 

Параметры: нет 

Диалекты: .МЕТ, ^ѵа, РСКЕ, Регі 

(?-ш://.*)|(?ш:/\*.*?\*/) 

Параметры: нет 
Диалект: КиЬу 

//Г\г\п]*|/\*.*?Ѵ/ 

Параметры: точке соответствуют границы строк 
Диалекты: .МЕТ, Заѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЬу 

//■*ІЛ*[\з\8]*?Ѵ/ 

Параметры: нет 

Диалекты: .МЕТ, Заѵа, Заѵабсгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

На первый взгляд кажется, что достаточно объединить решения из 
двух предыдущих рецептов с помощью оператора выбора: <//. * | /\* • *?\*/>- 
Однако этот прием не даст желаемого результата, потому что для пер¬ 
вой альтернативы параметр «точке соответствуют границы строк» дол¬ 
жен быть сброшен, а для второй, напротив, установлен. В ситуациях, 
когда необходимо объединить два регулярных выражения, использую- 
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щих точку, следует использовать модификатор режима для включения 
параметра «точке соответствуют границы строк» во второй половине ре¬ 
гулярного выражения. Решение, представленное здесь, дополнительно 
явно выключает этот параметр в первой половине выражения. Строго 
говоря, в этом нет необходимости, но такой подход более ясно отражает 
намерения и помогает предотвратить ошибки с параметром «точке соот¬ 
ветствуют границы строк», если данное регулярное выражение потре¬ 
буется внедрить в еще более длинное регулярное выражение. 

Диалекты РуЙюп и ^ѵа8сгірі; (ни с библиотекой ХКе&Ехр, ни без нее) 
не поддерживают модификаторы режимов в середине регулярных вы¬ 
ражений. При использовании диалектов РуЬЬоп и ^ѵа8сгірі с примене¬ 
нием ХКе^Ехр в части выражения сопоставления с однострочным ком¬ 
ментарием совпадение со всем до конца строки можно обеспечить с по¬ 
мощью инвертированного символьного класса <[Лг\п]*>, а в части сопо¬ 
ставления с многострочным комментарием использовать подвыражение 
<.*?> с включенным параметром «точке соответствуют границы строк». 

При использовании диалекта ^ѵаЗсгірі; без применения ХКе^Ехр нет 
возможности обеспечить совпадение точки с границами строк. Поэтому 
в этой версии решения в части выражения сопоставления с одностроч¬ 
ным комментарием было оставлено подвыражение <.*>, а в части сопо¬ 
ставления с многострочным комментарием используется подвыраже¬ 
ние <[\з\3]*?>. 

См. также 

Рецепт 2.4, в котором рассказывается о точке, а также о параметре, 
обеспечивающем ее совпадение с границами строк, и обходных реше¬ 
ниях для ^ѵа8сгірі. В рецепте 2.8 описывается применение оператора 
выбора. 

7.8. Строки 

Задача 

Необходимо написать регулярное выражение, совпадающее со строка¬ 
ми - последовательностями из нуля и более символов, заключенными 
в кавычки. Строка, в которой между кавычками ничего нет, - это пус¬ 
тая строка. Две кавычки в строке символов, следующие друг за другом, 
обозначают один символ - символ кавычки. Строки не могут содержать 
символы конца строки. Ни обратные слэши, ни какие-то другие симво¬ 
лы внутри строк не могут иметь специальное значение. 

Регулярное выражение должно совпадать с любыми строками, вклю¬ 
чая пустые, и возвращать единое совпадение при встрече в строке двух 
кавычек, следующих подряд. Например, оно должно возвращать "Ье'Гоге 
дио1:е , ”’а'Г1:ег дио^е" как единое совпадение, а не два: "Ьеіюге дио^е" и "а^іег 
диоііе" . 




506 


Глава 7. Исходный код и файлы журналов 


Решение 

"[ \г\п]*(? : ”’*[ \г\п]*)*" 

Параметры: нет 

Диалекты: .МЕТ, Лѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

Совпадение со строкой, не содержащей кавычек или символов конца 
строки, легко обеспечить с помощью выражения <”["Ѵ\п" ]*’’>. Кавычки 
в регулярных выражениях интерпретируются буквально, поэтому шаб¬ 
лон строки как последовательности символов, не содержащей кавычек 
или символов конца строки, можно выразить с помощью инвертирован¬ 
ного символьного класса. 

Но по условиям задачи строка может содержать кавычки, если они сле¬ 
дуют парами. Сопоставление с такими парами кавычек выразить со¬ 
всем несложно, если обрабатывать их отдельно. Вслед за открывающей 
кавычкой следует символьный класс <[~\г\п "]*>, совпадающий с любы¬ 
ми символами, кроме кавычек или символов конца строки. За ними мо¬ 
жет следовать ноль или более пар кавычек. Совпадение с парами кавы¬ 
чек можно было бы описать с помощью выражения <(?:”")*>, но после 
каждой пары кавычек в строке могут следовать другие символы, не яв¬ 
ляющиеся ни кавычками, ни символами конца строки. Поэтому для 
одной пары кавычек и следующих за ней других символов, не кавычек 
и не символов конца строки, выполняется сопоставление с помощью 
выражения <""[~Ѵ\гГ]*>, а для всех пар - с помощью подвыражения 
<(?:""[~\г\п"]*)*>. Регулярное выражение заканчивается кавычкой, за¬ 
крывающей строку. 

Совпадение, возвращаемое регулярным выражением, будет содержать 
строку целиком, включая ограничивающие ее кавычки и пары кавычек 
внутри строки. Чтобы получить только содержимое строки, программ¬ 
ный код, использующий регулярное выражение, должен будет выпол¬ 
нить дополнительные операции. Во-первых, он должен будет удалить 
кавычки в начале и в конце совпадения. Затем он должен отыскать все 
пары кавычек и заменить каждую из них одной кавычкой. 

У кого-то может возникнуть вопрос: почему бы не использовать более 
простое регулярное выражение <"(?:[~"\г\п] |”")*’’>? Это регулярное выра¬ 
жение соответствует паре кавычек, содержащих ноль или более вхож¬ 
дений совпадений с любой из двух альтернатив <(?: [ Л ”\г\п] |"”)*>. Сим¬ 
вольный класс <[~"\г\п]> соответствует символу, не являющемуся ка¬ 
вычкой или символом конца строки. Выражение <""> соответствует паре 
кавычек. В результате их объединения получается регулярное выраже¬ 
ние, соответствующее паре кавычек, содержащих ноль или более сим¬ 
волов, не являющихся кавычками, или символами конца строки, или 
парами кавычек. Это определение соответствует описанию строки в фор¬ 
мулировке задачи. Действительно, это регулярное выражение коррект- 
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но будет совпадать с нужными нам строками, но оно неэффективно. Ме¬ 
ханизм регулярных выражений будет входить в группу с двумя альтер¬ 
нативами при сопоставлении с каждым символом в строке. При сопо¬ 
ставлении с выражением из раздела «Решение» механизм регулярных 
выражений будет входить в группу только для каждой пары кавычек, 
встречающихся в строках достаточно редко. 

Можно попробовать оптимизировать неэффективное выражение так: 
<"(?:[~"\г\п]+| Суть в том, чтобы позволить этому регулярному вы¬ 
ражению входить в группу только для каждой пары кавычек и для 
каждой последовательности символов без кавычек или символов конца 
строки. Да, эта оптимизация будет давать положительный эффект при 
сопоставлении регулярного выражения с допустимыми строками. Но 
если где-нибудь в файле встретится строка без закрывающей кавычки, 
тут же возникнет проблема катастрофических возвратов. Если попытка 
найти совпадение с закрывающей кавычкой потерпит неудачу, меха¬ 
низм регулярных выражений будет пытаться опробовать все переста¬ 
новки, допускаемые квантификаторами <+> и < *>, сопоставляя все симво¬ 
лы между открывающей кавычкой и концом строки. 

В табл. 7.1 показано, как это регулярное выражение будет опробовать 
все возможные способы сопоставления для строки ’аЬссІ. В ячейках таб¬ 
лицы приводится текст, совпавший с подвыражением <[~"\г\п]+>. Снача¬ 
ла оно обнаруживает совпадение аЬссІ , но когда попытка сопоставления 
с закрывающей кавычкой потерпит неудачу, квантификатор <+> выпол¬ 
нит возврат, уступив часть своего совпадения. Когда это произойдет, 
квантификатор <*> повторит сопоставление с группой, инициировав сле¬ 
дующую итерацию сопоставления подвыражения <[~"\г\п]+> с оставши¬ 
мися символами. Теперь у нас имеется две итерации, которые будут вы¬ 
полнять возвраты. Так будет продолжаться до тех пор, пока в каждой 
итерации сопоставления с <[~"\г\п]+> не останется по одному символу, 
и квантификатор <*> повторит сопоставление с группой столько раз, 
сколько символов в строке. 

Таблица 7.1. Разделители строк 

Перестановка 1-я итерация 2-я итерация 3-я итерация 4-я итерация 

<Г"Ѵ\п]+> <Г"\г\п]+> <ГѴ\п]+> <Г"\г\п]+> 



2 

3 

4 

5 

6 

7 

8 



аЬ 

аЬ 

а 

а 

а 

а 


неприменимо 

6 

сд 

с 

ЬссІ 

Ьс 

Ь 

Ь 


неприменимо 

неприменимо 

неприменимо 

6 

неприменимо 

6 

сд 

с 


неприменимо 

неприменимо 

неприменимо 

неприменимо 

неприменимо 

неприменимо 

неприменимо 

сі 
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Как видите, число перестановок растет экспоненциально 1 относительно 
числа символов после открывающей кавычки. При обработке файлов 
с короткими строками это приведет к замедлению работы приложения. 
При обработке файлов с очень длинными строками приложение может 
«зависнуть» или завершиться аварийно. Если для сопоставления с мно¬ 
жеством строк использовать вариант <"(?:[~"]+|"")*">, перестановками 
может оказаться охвачена вся оставшаяся часть файла, если дальше 
нигде не встретится кавычка. 

Можно было бы попытаться предотвратить возвраты, применив атомар¬ 
ную группировку <"(?>[~"\г\п]+| ”")*"> или захватывающие квантифика¬ 
торы <"(?:[~"\г\п]++| "")*+">, если используемый диалект регулярных вы¬ 
ражений поддерживает их. Но необходимость использовать специаль¬ 
ные возможности сводит на нет все попытки создать более простое регу¬ 
лярное выражение, чем представленное в разделе «Решение». 


Варианты 

Ничуть не сложнее выглядит реализация сопоставления со строками 
в апострофах: 

’[~’\г\п]*(?:'’[~'\г\п]*)*’ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуіЬоп, КиЬу 


Если язык программирования поддерживает строки и в апострофах, 
и в кавычках, сопоставление с ними необходимо оформить в виде от¬ 
дельных альтернатив: 


"[~"Ѵ\п]*(?: ""[~"\г\п]*)*" | ' [~’\г\п]*(?: ’ '[~Лг\п]*)*' 


Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірі, РСКЕ, Регі, РуУюп, КиЬу 


Если строки могут включать символы конца строки, достаточно просто 
убрать их из инвертированного символьного класса: 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуЙюп, КиЬу 


Если регулярное выражение предполагается использовать в системе, 
так или иначе связанной с редактированием исходного программного 
кода, может потребоваться сделать необязательной закрывающую ка¬ 
вычку. В этом случае все, от начала и до конца строки в тексте, будет ин¬ 
терпретироваться как строковый литерал, пока не будет введена закры¬ 
вающая кавычка. Например, механизм подсветки синтаксиса в тексто- 


1 При наличии п символов между открывающей кавычкой и концом строки 
механизм регулярных выражений выполнит 2 П_1 перестановок для сопо¬ 
ставления с <(?:[''"\г\п]+Г"')*>. 
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вых редакторах обычно действует именно так. Если сделать необяза¬ 
тельной закрывающую кавычку, это никак не повлияет на работу 
регулярного выражения в файлах, где все строковые литералы коррект¬ 
но заключены в кавычки. Квантификатор для закрывающей кавычки 
должен быть максимальным, чтобы он обнаруживал совпадение, если 
таковое имеется. Инвертированные символьные классы устраняют риск 
ошибочного совпадения с закрывающей кавычкой как частью строково¬ 
го литерала. 

1~Лг\п]*(?:'"Г"\г\п]*К? 

Параметры: нет 

Диалекты: ^ЕТ, Заѵа, ЗаѵаВсгірі, РСКЕ, Регі, РуІЬоп, КиЬу 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.9 рассказывается о группировке. В рецепте 2.12 
объясняется, как организовать сопоставление с повторяющимися ком¬ 
бинациями символов. 

В рецептах 2.15 и 2.14 объясняется, что такое катастрофические возвра¬ 
ты и как их предупредить с помощью атомарной группировки и захва¬ 
тывающих квантификаторов. 

7.9. Строки с экранированными символами 

Задача 

Необходимо написать регулярное выражение, совпадающее со строка¬ 
ми — последовательностями из нуля и более символов, - заключенными 
в кавычки. Строка, в которой между кавычками ничего нет, - это пус¬ 
тая строка. В строку может быть включена кавычка, если она экрани¬ 
рована символом обратного слэша. Обратные слэши также могут ис¬ 
пользоваться для экранирования других символов в строке. Строки не 
могут содержать символы конца строки, и эти символы не могут экра¬ 
нироваться обратными слэшами. 

Решение 

"[ \\\г\п]*(?:\\.[~"\\\г\п]*)" 

Параметры: нет 

Диалекты: .ЫЕТ, Заѵа, ЗаѵаВсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Это регулярное выражение имеет ту же структуру, что и выражение 
в предыдущем рецепте. Разница лишь в том, что теперь специальное 
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значение имеют два символа: кавычка и обратный слэш. В этом регуляр¬ 
ном выражении совпадение с обоими символами исключается с помо¬ 
щью двух инвертированных символьных классов. Для сопоставления 
с каждым экранированным символом используется подвыражение <\\ >. 
Последовательность <\\> соответствует одному символу обратного слэша, 
а <. > соответствует любому символу, не являющемуся концом строки. Па¬ 
раметр «точке соответствуют границы строк» должен быть выключен. 

Варианты 

Совпадение со строками, заключенными в апострофы, определяется 
так же просто: 

' [~’\\\г\п]*(?:\\.[~ Л\\г\п]*)’ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵабсгірі;, РСКЕ, Регі, РуШоп, КиЬу 

Если язык программирования поддерживает строки и в апострофах, 
и в кавычках, сопоставление с ними необходимо оформить в виде от¬ 
дельных альтернатив: 

”[~”\\\г\п]*(? :\\. [~"\\\г\п]*)" I ’ [~ Л\Ѵ\п]*(? :\Ѵ [~ Л\Ѵ\п]*) ' 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵайсгірі;, РСКЕ, Регі, РуНюп, КиЬу 

Если строки могут включать символы конца строки, экранированные 
обратными слэшами, можно изменить первоначальное регулярное вы¬ 
ражение, разрешив в нем совпадение с символами конца строки после 
обратного слэша. В следующем выражении используется конструкция 
<(?:.|\г?\п)> вместо параметра «точке соответствуют границы строк», 
чтобы гарантировать корректное совпадение с разрывами строк в стиле 
ДДГІПСІОЛѴ8. Точка может соответствовать только символу СК в последова¬ 
тельности СК ЬЕ, обозначающей конец строки, и регулярное выраже¬ 
ние может терпеть неудачу при сопоставлении с символом ЬЕ. Подвыра¬ 
жение <\г?\п> корректно совпадает с разрывами строк и в стиле АДГіпсіолѵз, 
и в стиле ІШІХ. 

”[~"\\\г\п]*(? :\\(?:. |\г?\п)[~’ , \\\г\п]*)" 

Параметры: нет (параметр «точке соответствуют границы строк» дол¬ 
жен быть выключен) 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ;, РСКЕ, Регі, РуЙюп, КиЬу 

Если строки могут включать даже неэкранированные символы конца 
строки, достаточно просто убрать их из инвертированных символьных 
классов. Параметр «точке соответствуют границы строк» должен быть 
включен. 

”[~"\\]*(? :\Ѵ [~"\\]*)*" 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуѣЬоп, КиЬу 



7.10. Литералы регулярных выражений 


511 


Для стандартного диалекта 4аѵа8сгірІ (без применения ХКе^Ехр) тре¬ 
буется отдельное решение, потому что в нем не поддерживается воз¬ 
можность совпадения точки с границами строк. 

"[~:\\[\з\5][ \\]*)*” 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, 4аѵа8сгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

См. также 

Рецепт 7.8, где описывается базовая структура регулярного выраже¬ 
ния, предложенного в решении к этому рецепту. 

В рецепте 2.4 рассказывается о точке, а также о параметре, обеспечи¬ 
вающем ее совпадение с границами строк, и обходных решениях для 
^ѵаЭсгірІ. 

7.10. Литералы регулярных выражений 

Задача 

Необходимо написать регулярное выражение, совпадающее с литера¬ 
лами регулярных выражений в исходном программном коде, чтобы 
можно было легко находить их в текстовом редакторе или с помощью 
инструмента &гер. В соответствии с синтаксисом предполагаемого здесь 
языка программирования литералы регулярных выражений заключа¬ 
ются в символы прямого слэша. Прямые слэши в литералах регуляр¬ 
ных выражений должны экранироваться обратными слэшами. 

Требуемое регулярное выражение должно совпадать со всем, что вы¬ 
глядит как литерал регулярного выражения. В нем не требуется прове¬ 
рять текст между прямыми слэшами, чтобы убедиться, что он действи¬ 
тельно представляет допустимое регулярное выражение. 

Так как в этом рецепте требуется написать единственное регулярное 
выражение, а не полноценный компилятор, это регулярное выражение 
должно отличать ситуации, когда прямой слэш используется как опе¬ 
ратор деления, а когда - как начальный символ литерала регулярного 
выражения. Литералы регулярных выражений могут присутствовать 
в операциях присваивания (после знака «равно»), в операциях провер¬ 
ки на равенство или неравенство (после знака «равно»), в операции от¬ 
рицания (после восклицательного знака), в литералах определений 
объектов (после двоеточия) и в параметрах функций (после открываю¬ 
щей скобки или запятой). Пробельные символы между литералом регу¬ 
лярного выражения и предшествующим символом должны игнори¬ 
роваться. 
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Решение 

(?<=[=:(,](?:\з»!)?\з*)/[“/\\\г\п]*(?:\\.[~/\\\г\п]*)*/ 

Параметры: нет 

Диалект: ^ЕТ 

[ = :(,](?:\з*!)?\зЛК/[Ѵ\\\г\п]*(?:\\.[Ѵ\\\г\п]*)*/ 

Параметры: нет 

Диалекты: РСКЕ 7.2, Регі 5.10 

(?<=[ = :(,](? :\з{0,10} + ! )?\з{0,10} )/[Ѵ\\\г\п]*(?:\\.["Л\\г\п]*)*/ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа 

[ = :(,](?:\з*!)?+\з*(/[7\\\г\п]*(?:\\.[Ѵ\\\г\п]*)*/) 

Параметры: нет 

Диалекты: .МЕТ, Лѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Во всех четырех решениях для сопоставления с литералом регулярного 
выражения используется выражение </[ Л /\\\г\п]* (? :\\. [ Л /\\\г\п]*)*/>. Это 
то же самое регулярное выражение, что было предложено в разделе 
«Решение» в рецепте 7.9, только вместо кавычек здесь используются 
символы слэша. В действительности, литерал регулярного выраже¬ 
ния - это всего лишь строка, заключенная в символы прямого слэша, 
которая может содержать экранированные символы слэша. 

Различия между этими четырьмя решениями заключаются в способе 
проверки предшествования знака «равно», двоеточия, открывающей 
круглой скобки или запятой и, возможно, присутствия восклицатель¬ 
ного знака между этими символами и литералом регулярного выраже¬ 
ния. Эту проверку можно было бы легко реализовать с помощью ретро¬ 
спективной проверки, если бы по условиям задачи не требовалось игно¬ 
рировать произвольное число пробельных символов между литералом 
регулярного выражения и предшествующим ему символом. Это требо¬ 
вание усложняет решение, так как диалекты регулярных выражений, 
обсуждаемые в этой книге, существенно отличаются в поддержке рет¬ 
роспективных проверок. 

Диалект .ЫЕТ - единственный из рассматриваемых здесь, который 
позволяет бесконечное повторение внутри ретроспективной провер¬ 
ки. Поэтому для .ЫЕТ получилось замечательное решение: <(?<=[=:(,] 
(?:\з*!)?\з*)>. Символьный класс <[=:(,]> проверяет присутствие любого 
из четырех символов. Подвыражение <(? :\з*! )?> допускает присутствие 
восклицательного знака после символа и произвольное число пробель¬ 
ных символов между ними. Следующее подвыражение <\з*> допускает 
присутствие произвольного числа пробельных символов перед симво¬ 
лом слэша, открывающим литерал регулярного выражения. 
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Диалекты Регі и РСКЕ не допускают наличие квантификаторов в рет¬ 
роспективных проверках. Поэтому решение на основе ретроспективной 
проверки в диалектах Регі и РСКЕ получается недостаточно гибким. Но 
в Регі 5.10 и РСКЕ 7.2 появился новый метасимвол <\К>, который можно 
использовать вместо ретроспективной проверки. Подвыражение <[=:(,] 
(? :\з*! )?\з*> совпадает с любым из четырех символов, а также с любым 
числом последующих пробельных символов, восклицательным знаком 
и снова с любым числом последующих пробельных символов. После то¬ 
го как совпадет это подвыражение, метасимвол <\К> сообщит механизму 
регулярных выражений, что он должен сохранить только что найден¬ 
ное совпадение. Знаки пунктуации, только что найденные регулярным 
выражением, не будут включены в общий результат сопоставления. За¬ 
тем процесс продолжается как обычно и выполняется попытка сопоста¬ 
вления </[Ѵ\\\і г \п]*(?Л\-[Ѵ\\\г\п]*)*/> с предполагаемым литералом регу¬ 
лярного выражения. 

Диалект ^ѵа не поддерживает бесконечное повторение в ретроспектив¬ 
ных проверках, но поддерживает ограниченное повторение. Поэтому 
вместо подвыражения <\з*>, проверяющего наличие неограниченного 
числа пробельных символов, используется подвыражение <\з{0,10}>, огра¬ 
ничивающееся 10 пробельными символами. Число 10 выбрано произ¬ 
вольно; число должно быть достаточно большим, чтобы гарантировать, 
что выражение не пропустит далеко отстоящий литерал регулярного 
выражения, и при этом достаточно маленьким, чтобы избежать неоправ¬ 
данного снижения скорости работы регулярного выражения. Чем боль¬ 
шее число повторений будет позволено, тем больше символов придется 
проверить механизму регулярных выражений ^ѵа в поисках совпаде¬ 
ния с содержимым ретроспективной проверки. 

Остальные диалекты регулярных выражений либо не поддерживают 
квантификаторы внутри ретроспективных проверок, либо не поддер¬ 
живают сами ретроспективные проверки, либо не поддерживают мета¬ 
символ <\К>. В решениях для этих диалектов просто используется под¬ 
выражение <[=:(, ](?:\з*!)?+\з*>, совпадающее со знаками пунктуации, 
допустимыми перед литералом регулярного выражения, и подвыраже¬ 
ние <(/['У\\\г\п]*(?:\\.['У\\\г\пЗ*)*/)>, совпадающее с литералом регуляр¬ 
ного выражения и запоминающее его в сохраняющей группе. Общее 
совпадение с регулярным выражением будет включать и знак пунктуа¬ 
ции, и литерал регулярного выражения. Применение сохраняющей 
группы упрощает извлечение литерала. Это решение будет работоспо¬ 
собным, только если приложение, в котором предполагается его ис¬ 
пользовать, позволяет извлекать совпадение не только со всем регуляр¬ 
ным выражением, но и с сохраняющей группой. 

См. также 

Рецепт 2.16, где во всех подробностях описываются ретроспективные 
проверки и метасимвол <\К>. 
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7.11. Встроенные документы 

Задача 

Необходимо написать регулярное выражение, совпадающее со встроен¬ 
ными документами ( Неге йоситепів) в файлах с исходным программ¬ 
ным кодом на языке сценариев, в котором встроенные документы могут 
начинаться с последовательности « и следующим за ней некоторым 
словом. Это слово может быть заключено в апострофы или кавычки. 
Конец встроенного документа обозначается этим же словом, находя¬ 
щимся в самом начале текстовой строки, без кавычек, с сохранением 
регистра символов в нем. 

Решение 

«(Г ' ]?)([А-2а-г]+)\Ь\1 . *?~\2\Ь 

Параметры: точке соответствуют границы строк, символам Л и $ соот¬ 
ветствуют границы строк 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЪу 

«(["■]?)([А-2а-2]+)\Ь\1[\5\3]*?Л2\Ь 
Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуЙіоп, КиЬу 

Обсуждение 

Это регулярное выражение может показаться несколько замыслова¬ 
тым, но в действительности это не так. Подвыражению «<> соответству¬ 
ет пара символов <<. Следующему подвыражению <([']?)> соответствует 
необязательный апостроф или кавычка. Круглые скобки образуют со¬ 
храняющую группу для запоминания типа открывающей кавычки 
или ее отсутствия. Важно отметить, что квантификатор <?> должен на¬ 
ходиться внутри группы, а не за ее пределами, чтобы группа всегда 
участвовала в сопоставлении. Если сделать необязательной саму груп¬ 
пу, она не будет принимать участие в сопоставлении в отсутствие ка¬ 
вычки и попытка сослаться на нее с помощью обратной ссылки будет 
вызывать ошибку сопоставления. 

Сохраняющая группа с символьным классом <([А-2а-г]+)> соответствует 
слову и делает его доступным для второй обратной ссылки. Проверка 
границы слова <\Ь> гарантирует совпадение с целым словом, следую¬ 
щим за <«>. Если опустить ее, механизм регулярных выражений смо¬ 
жет выполнять возвраты и разрешить совпадение с частью этого слова, 
если сопоставление с обратной ссылкой <\2> потерпит неудачу. Прове¬ 
рять границу слова перед самим словом не требуется, потому что под¬ 
выражение <«(["']?)> уже гарантирует наличие символа, не являюще¬ 
гося символом слова, перед самим словом. 
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<\1> - это обратная ссылка на первую сохраняющую группу. Эта группа 
хранит кавычку, если она была найдена, или пустую строку. То есть <\1> 
совпадет с кавычкой того же типа, что и открывающая кавычка, сохра¬ 
ненная группой. <\1> не оказывает никакого влияния на работу регуляр¬ 
ного выражения, если сохраняющая группа хранит пустую строку. 

<. *?> соответствует тексту любой длины. Требование к включению пара¬ 
метра «точке соответствуют границы строк» обеспечивает поддержку 
многострочного текста. Диалект Заѵа8сгір{; не поддерживает этот пара¬ 
метр, поэтому в решении для Заѵа8сгірІ используется подвыражение 
<[\з\5]*?>. В любом случае, знак вопроса превращает звездочку в мини¬ 
мальный квантификатор, требуя от нее совпадения с как можно мень¬ 
шим количеством символов. Встроенный документ должен завершать¬ 
ся первым вхождением заключительного слова, а не последним. В фай¬ 
ле может иметься несколько встроенных документов, ограниченных 
одним и тем же завершающим словом, и минимальный квантификатор 
обеспечит совпадение с каждым из этих документов по отдельности. 

Г> соответствует началу произвольной строки, потому что включен па¬ 
раметр «символам Л и $ соответствуют границы строк». Диалект КиЪу 
не поддерживает этот параметр, но так как в КиЬу символ крышки 
и знак доллара всегда соответствуют границам строк, для этого диалек¬ 
та не требуется создавать отдельное решение. Просто потребуется уста¬ 
навливать на один параметр меньше. 

<\2> — это обратная ссылка на вторую сохраняющую группу. Эта группа 
хранит слово, найденное в начале встроенного документа. Так как син¬ 
таксис встроенных документов в предполагаемом языке сценариев раз¬ 
личает регистр символов, регулярное выражение также должно быть 
чувствительно к регистру символов. Именно по этой причине для сопо¬ 
ставления со словом используется <[А-2а-г]+>, а не <[а-і]+> или <[А -!]+> 
с включенным параметром нечувствительности к регистру. Кроме того, 
обратные ссылки сохраняют чувствительность к регистру символов да¬ 
же при включенном параметре нечувствительности к регистру. 

Наконец, еще одна проверка границы слова <\Ь> гарантирует прекраще¬ 
ние процесса сопоставления, только если <\2> совпадет с искомым сло¬ 
вом, а не с частью более длинного слова. Проверять границу перед сло¬ 
вом не требуется, так как символ крышки уже гарантирует, что слово 
находится в начале строки. Всякий раз когда сопоставление с <\2> или 
заключительной границей слова <\Ь> потерпит неудачу, механизм регу¬ 
лярных выражений выполнит возврат и позволит подвыражению <.*?> 
совпасть с большим количеством символов. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.4 говорится, что точке соответствуют любые сим¬ 
волы. В рецепте 2.5 обсуждаются якорные метасимволы. В рецепте 2.6 
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говорится о границах слов. В рецепте 2.9 рассказывается о группиров¬ 
ке. В рецепте 2.10 обсуждаются обратные ссылки. В рецепте 2.12 объяс¬ 
няется, как организовать сопоставление с повторяющимися комбина¬ 
циями символов. В рецепте 2.13 описывается, как обеспечить совпаде¬ 
ние с как можно меньшим количеством символов. 

7.12. Обобщенный формат файла журнала 

Задача 

Необходимо написать регулярное выражение, совпадающее с каждой 
строкой в файле журнала веб-сервера, имеющем обобщенный формат 
файлов журналов (Соішпоп Ьо& Еогтаі). 1 Например: 

127.0.0.1 - ]д [27/Арг/2012:11:27:36 +0700] "0ЕТ /гедехсоокЬоок. Шті 
НТТР/1.1" 200 2326 

Регулярное выражение должно иметь сохраняющие группы для всех 
полей, чтобы приложение имело простую возможность обрабатывать 
записи по полям. 

Решение 

~(?<с1іеп1:>\5+)ЛЗ+«(?<изегі(1>\3+)Л[(?<йа1:е1:іте>[Л]]+)\]и 

• ’Ч?<теІІіосІ>[А-2]+)*(?<гедиез1:>[~*"]+)?*НТТР/[0-9. ]+"и 

• (?<зІаЩз>[0-9]{3})«(?<5і2е>[0-9]+| - ) 

Параметры: символам " и $ соответствуют границы строк 
Диалекты: .ЫЕТ, Заѵа. 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

''(?Р<с1іеп1:>\3+)*\3+*(?Р<изегіс1>\3+)*\[(?Р<с1а1:е1:іте>[''\]]+)\]Д 
*"(?Р<те1:Ііо(1>[А-7]+)*(?Р<гедие5І:>[~*"]+)?«НТТР/[0-9. ]+’^ 

• (?Р<з1:а1:из>[0-9] {3} )*(?Р<зііе>[0-9]+| -) 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: РСКЕ 4, Регі 5.10, РуІЬоп 

''(\3+)ЛЗ+*(\3+)Л[([Л]] + )\]*"([А-2]+)*([''*"]+)?*НТТР/[0-9. ]+”и 
*([0-9]{3})*([0-9]+|-)»"([ ]*)”*"([ 1*)” 

Параметры: символам " и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуіЬоп, КиЬу 

Обсуждение 

Создание регулярных выражений, совпадающих с целой записью в фай¬ 
ле журнала, - задача достаточно простая. Однако это утверждение вер¬ 
но, только когда все записи следуют одному и тому же формату, отлича¬ 
ясь только значениями полей. Данного правила придерживаются веб¬ 
серверы, ведущие журнал доступа с использованием обобщенного фор¬ 
мата Соішпоп Ьо& Еогтаі, такие как АрасЬе. Каждая строка в файле 


1 Ніір://Ніірсі.арасНе.ог§/сіос8/сиггепі/Іо§8.НітІ. 
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журнала соответствует одной записи, а каждая запись состоит из семи 
полей, разделенных пробелами: 

1. ІР-адрес или имя хоста клиента, выполнившего запрос. 

2. Идентификатор клиента согласно КГС 1413. Редко используется. Де¬ 
фис в этом поле свидетельствует об отсутствии идентификатора. 

3. Имя пользователя при использовании механизма НТТР-аутентифи- 
кации или дефис, если механизм НТТР-аутентификации не исполь¬ 
зовался. 

4. Время приема запроса в квадратных скобках. Обычно в формате 
[день/месяц/год:часы:минуты:секунды часовой_пояс], причем вре¬ 
мя в 24-часовом формате. 

5. Запрос, в кавычках, с тремя блоками информации, разделенными 
пробелами: 

a. Метод запроса 1 , такой как СЕТ, РОСТ или НЕДР. 

b. Запрошенный ресурс - часть строки ІШЬ, следующая за именем 
хоста. 

c. Версия протокола - либо НТТР/1.0, либо НТТР/1.1. 

6. Код состояния 2 , трехзначное число, такое как 200 (означает «ОК») 
или 404 («не найдено»). 

7. Объем данных, отправленных клиенту, исключая заголовки. Если 
ответ не возвращался, в этом поле может быть дефис или ноль. 

В действительности совсем необязательно знать все эти тонкости, что¬ 
бы написать регулярное выражение, успешно совпадающее с каждой 
записью. Можно уверенно предположить, что веб-сервер будет записы¬ 
вать в файл журнала только допустимую информацию. Регулярному 
выражению не требуется фильтровать журнал в поисках записей с опре¬ 
деленными значениями, потому что эту функцию берет на себя прило¬ 
жение, использующее данное регулярное выражение. 

Итак, фактически достаточно лишь знать, как отделяются поля и запи¬ 
си друг от друга. Обладая такими знаниями, можно будет организовать 
сопоставление с полями в виде отдельных сохраняющих групп. Записи 
отделяются разрывами строк, а поля - пробелами. Но поля с датой и за¬ 
просом могут содержать пробелы, поэтому при реализации сопоставле¬ 
ния с этими двумя полями необходимо проявить чуть больше внимания. 

Первые три поля не могут содержать пробелы. Благодаря этому совпа¬ 
дения с ними можно описать с использованием сокращения символьно¬ 
го класса <\8+>, что соответствует последовательности из одного или бо¬ 
лее символов, не содержащей пробелов или границ строк. Так как 
идентификатор клиента редко используется на практике, совпадение 
с ним не сохраняется. 


1 Мір://ъои)и).іѵ3.ог§/РгоіосоІ8/г{с2616/г{с2616-8ес9.кітІ. 

2 Ъ,ир://и)и)и).іѵ3.ог§/Рго1осоІ8/г{с2616/г{с2616-8ес10.МтІ. 
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Поле с датой всегда заключено в квадратные скобки, которые являются 
метасимволами регулярных выражений. Чтобы обеспечить совпадение 
с квадратными скобками, они экранируются: <\[> и <\]>. Строго говоря, 
закрывающую квадратную скобку можно не экранировать за предела¬ 
ми символьных классов. Но поскольку между литералами квадратных 
скобок находится символьный класс, экранирование закрывающей 
квадратной скобки упростит чтение регулярного выражения. Инверти¬ 
рованный символьный класс <["\]]+> соответствует одному или более 
символам, не являющимся закрывающей квадратной скобкой. В ^ѵа- 
8сгірі литерал закрывающей квадратной скобки должен экранировать¬ 
ся всегда, если он находится внутри символьного класса. Другие диа¬ 
лекты не требуют экранирования закрывающей квадратной скобки, 
если она следует непосредственно за открывающей квадратной скобкой 
или инвертирующим символом крышки, но в предложенных решениях 
она экранируется для большей ясности. Инвертированный символь¬ 
ный класс заключен в литералы квадратных скобок: <\[([~\]]+)\]>. Как 
следствие регулярное выражение будет сохранять дату без квадратных 
скобок, поэтому приложению, использующему его, не придется уда¬ 
лять скобки перед анализом даты. 

Так как запрос фактически содержит три блока информации, для сопо¬ 
ставления с ним применяются три отдельные сохраняющие группы. 
<[А-2]+> соответствует любому слову, состоящему только из символов 
верхнего регистра, - методу запроса. Название запрашиваемого ресурса 
может быть практически любой комбинацией символов. <[~ " ]+> соответ¬ 
ствует такой комбинации, исключая пробелы и кавычки. <НТТР/[0-9.]+> 
соответствует версии НТТР и допускает присутствие цифр и точек в лю¬ 
бых комбинациях в номере версии. 

Код состояния состоит из трех цифр, поэтому совпадение с ним легко 
можно описать подвыражением <[0-9]{3}>. Объем данных - это число 
или дефис, поэтому сопоставление выполняется с помощью подвыра¬ 
жения <[0-9]+|->. Об объединении этих двух альтернатив заботится со¬ 
храняющая группа. 

В начале регулярного выражения присутствует символ крышки, а па¬ 
раметр «символам Л и $ соответствуют границы строк» гарантирует, 
что он будет совпадать только с позицией после границы строки. Благо¬ 
даря этому сопоставление с каждой новой записью в файле журнала бу¬ 
дет начинаться с начала строки, что существенно увеличивает произво¬ 
дительность регулярного выражения при условии невысокой вероятно¬ 
сти появления в файле недопустимых строк. Регулярное выражение 
будет пытаться выполнить сопоставление с такими строками только 
один раз, в начале строки, не проверяя каждую позицию в этой строке. 

Мы не поместили знак доллара в конец регулярного выражения специ¬ 
ально, чтобы ограничить длину записи длиной одной текстовой строки 
в файле. Если запись в файле журнала содержит дополнительную ин¬ 
формацию, регулярное выражение попросту будет игнорировать ее. Это 
позволяет данному регулярному выражению работать одинаково хоро- 
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шо и с расширенными форматами файлов журналов, такими как Сош- 
Ьіпесі Ьо& Еогтаі (комбинированный формат файлов журналов), о кото¬ 
ром рассказывается в следующем рецепте. 

Регулярное выражение состоит из восьми сохраняющих групп. Чтобы 
упростить его чтение, мы использовали именованные сохранения - 
в версии для диалектов, поддерживающих такую возможность, 4аѵа- 
8сгір1 (без ХКе^Ехр) и КиЪу 1.8 — единственные диалекты из обсуждае¬ 
мых в этой книге, не поддерживающие именованные сохранения. В вер¬ 
сии для них используются нумерованные сохраняющие группы. 

Варианты 

Ч?<с1іепТ>\3+)ЛЗ + *(?<изегій>\3+)Л[(?<сІау>[0-9]{2} )/(?<тоШ:І-і>и 
[А-2а-2]+)/(?<уеаг>[0-9]{4}):(?<Поиг>[0-9]{2}):( ?<тіп> [0-9]{2}):и 
(?<зес>[0-9]{2} )*(?<гопе>[-+][0-9]{4} )\]*"(?<теТІі0(}>[А-2]+)О 
(?<Ті1е>[~#?»" ]+)(?<рагатеТегз>[#?]["*"]*)?*НТТР/[0-9. ]+"0 
( 7<з1:а1:из>[ 0-9 ] {3} )«(?<зі2е>[0-9]+| -) 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

,ч (?Р<с1іеп1:>\3+)*\3+*(?Р<изегісІ>\3+)*\[(?Р<с1ау>[0-9]{2} )/(?Р<топ1:Іі>и 
[А-7а-2]+)/(?Р<уеаг>[0-9]{4}):(? Р<0ои г>[0-9]{2}):( ?Р<тіп>[ 0-9]{2}):и 
(?Р<зес>[0-9]{2} )*(?Р<2опе>[-+][0-9]{4})\]*"(?Р<теі:Ііос1>[А-2]+)«и 
( ?Р<1 : і1е>[ "]+)(?Р<рагате1:егз>[#?][ Л *"]*)?*ИТТР/[0-9. ]+"0 
(?Р<з1:а1:из>[ 0-9] {3 > )«(?Р<зі2е>[0-9]+| -) 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: РСКЕ 4, Регі 5.10, РуіЪоп 

"(\3+) \3+ (\3+) \[([0-9]{2})/([А-2а-г]+)/([0-9]{4}):([0-9]{2}):и 
([0-9]{2}):([0-9]{2}) ([\-+][0-9]{4})\] ”([А-2]+) (Г#? "]+)и 
([#?][~ "]*)? НТТР/[0-9.]+" ([0-9]{3}) ([0-9]+|-) 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, Руііюп, КиЪу 

Регулярное выражение, представленное как решение в этом рецепте, 
просто возвращает совпадения со всеми полями, оставляя дальнейшую 
их обработку за приложением, использующим его. В зависимости от 
потребностей приложения может пригодиться возможность извлече¬ 
ния с помощью регулярного выражения некоторой дополнительной ин¬ 
формации из записей в журнале. 

В данном варианте выполняется сопоставление со всеми элементами да¬ 
ты и времени в отдельности, что может упростить преобразование сов¬ 
павшего текста в фактическую дату и время внутри приложения. Кро¬ 
ме того, информация о запрошенном ресурсе разбивается на две части - 
«файл» и «параметры». Если запрошенный ресурс содержит символ ? 
или #, именованная группа 1 = і1е сохранит текст, предшествующий ? или 
#. Именованная группа рагашеіегз сохранит сам символ ? или #, а также 
все, что следует за ним. Это может, например, упростить подсчет стра¬ 
ниц в приложении без учета параметров. 
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См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы, такие как 
символ крышки. В рецепте 2.11 обсуждаются именованные сохраняю¬ 
щие группы. 

В главе 3 демонстрируются фрагменты программного кода, которые 
можно использовать в комплексе с этим регулярным выражением для 
реализации обработки файлов журналов в своих приложениях. В ре¬ 
цепте 3.11 приводится пример программного кода, выполняющего об¬ 
ход всех найденных совпадений, который пригодится в случае, когда 
приложение загружает весь файл журнала в строковую переменную. 
В рецепте 3.7 демонстрируется прием сопоставления с отдельными 
строками текста, когда приложение читает содержимое файла построч¬ 
но. В рецепте 3.9 демонстрируется код, извлекающий фрагменты тек¬ 
ста, совпавшие с сохраняющими группами. 

7.13. Комбинированный формат 
файлов журналов 

Задача 

Необходимо написать регулярное выражение, совпадающее с каждой 
строкой в файле журнала веб-сервера, имеющем комбинированный 
формат файлов журналов (СотЬіпесі Ьо& Еогтаі). 1 Например: 

127.0.0.1 - ]д [27/Арг/2012:11:27:36 +0700] "ЗЕТ /гедехсоокЬоок. Шті НТТР/1.1" 
200 2326 "1ЦТр://мш. гедехсоокЬоок.сот/" "МстІІа/5. 0 (сотраЕШе; МЗІЕ 9.0; 
Міпсіоѵѵз N1 6.1; Тгіс1еп1:/5.0)" 

Решение 

''(7<с1іеп1:>\3+)*\5+*(?<и5егіР>\3+)«\[(?<с1а1:е1:іте>[''\]]+)\]и 

• ”(?<те1:1іос1>[А-2]+)*(?<гедиез1:>[''*"]+)?*НТТР/[0-9. ]+"и 
*(?<5І:а1:и5>[0-9]{3})*(?<зі2е>[0-9]+| - )*”(?<ге1 : еггег>[''”]*)" и 

• ”(?<изегадеп 1 :>[~"]*)" 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

''(?Р<с1іеп1:>\3+)*\5+*(?Р<и5егіс1>\3+)«\[(?Р<с1а1:е1:іте>[''\]]+)\]и 

• ’Ч?Р<те1:Ііосі>[А-2]+)«(?Р<гедііез1:>[''*"]+)?«НТТР/[0-9. ]+"^ 

*(?Р<з1:а1:из>[0-9]{3} )*(?Р<зі2е>[0-9]+| - )*”(?Р<ге1 : еггег>[''"]*)”и 

• "(?Р<изегадепі:>[~"]*)" 

Параметры: символам " и $ соответствуют границы строк 
Диалекты: РСКЕ 4, Регі 5.10, РуИюп 


1 Ніір://1г1:ір(і.арас1ге.ог§/(іос8/сиггепі/Іо§8.Ыти 
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'(\3+)ЛЗ+*(\8+)Л[([‘\]]+)\]*"([А-2]+).(["*"]+)?.НПР/[0-9.]+"Д 
• ([ 0-9 ]{ 3 })•([ 0 - 9]+1 ~~~" 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, Лаѵа, ЛаѵаЯсгірІ, РСКЕ, Регі, РуѣЬоп, КиЬу 

Обсуждение 

Комбинированный формат файлов журналов (СотЪіпесі Ъо& Еогтаі) 
имеет практически ту же структуру, что и обобщенный формат файлов 
журналов (Соттоп Ьо& Еогтаі), кроме двух дополнительных полей 
в конце каждой записи. Первое из этих двух полей содержит адрес ІШЬ 
веб-страницы, сославшейся на данный ресурс, а второе содержит назва¬ 
ние пользовательского программного агента (изег а&епі). Значения обо¬ 
их полей заключены в кавычки. Совпадение с каждым из этих полей 
обеспечивается с помощью простого регулярного выражения < ['' ]*’>. 
Мы заключили <[~"]*> в сохраняющую группу, чтобы упростить извлече¬ 
ние адреса ЧКЬ веб-страницы, сославшейся на данный ресурс, и назва¬ 
ния пользовательского программного агента без окружающих кавычек. 

См. также 

Предыдущий рецепт, где рассказывается, как реализовать совпадение 
с каждой записью в файле журнала веб-сервера, имеющем обобщенный 
формат файлов журналов. 

7.14. Сообщения о недействительных ссылках 
в файле журнала веб-сервера 

Задача 

Имеется файл журнала веб-сервера в комбинированном формате фай¬ 
лов журналов (СотЪіпесі Ьо& Еогтаі). Необходимо найти в нем все сооб¬ 
щения о недействительных ссылках, имеющихся на веб-сайте. 

Решение 

"(?:СЕТ| Р08Т) « (?<1 = і1е>[ ~#?«"]+)(?: [#?][''»"]*)?«НТТР/[0-9. ]+".404*4 
(?: [0-9]+1 - )•"(?< ге^еггег>ІтЫ:р ://тѵі\. уоигзі1:е\. сот[ 

Параметры: нет 

Диалекты: .1ЧЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 

"(? :СЕТ| Р03Т)«(?Р<‘Ше>[''#?«”]+)(? : [#?][~*"]*)?«НТТР/[0-9. ]+"*404О 
(? : [0-9]+1 -)»"(?Р<ге'Геггег>1т1:1:р://\л/ш\. уоигзі1:е\. сот[ 

Параметры: нет 

Диалекты: РСКЕ 4, Регі 5.10, РуЙюп 
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"(? :ОЕТ | Р05Т)*([~#?*"]+)(? : [#?][''*"]*)?*НТТР/[0-9. ]+"*404О 
(?: [0-9]+ 1 -)*"(\)ХХр://ѵіт\. уоигзіГеѴ сот['*"]*)" 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірГ, РСКЕ, Регі, РуГЬоп, КиЪу 

Обсуждение 

Если пользователь щелкнет мышью на ссылке, указывающей на отсут¬ 
ствующий файл на этом же веб-сайте, он получит в ответ ошибку «стра¬ 
ница не найдена». В поле адреса ІШЬ веб-страницы, сославшейся на 
данный ресурс, веб-сервер создаст запись в файле журнала, содержа¬ 
щую имя отсутствующего файла в поле запрошенного ресурса, код со¬ 
стояния 404 и страницу, содержащую недействительную ссылку. Вам 
необходимо извлечь поле запрошенного ресурса из записей в журнале, 
имеющих код состояния 404, и адрес ІШЬ веб-страницы, сославшейся 
на данный ресурс, принадлежащий вашему веб-сайту. 

Один из способов получить желаемый результат - написать на одном из 
языков программирования сценарий, использующий регулярное выра¬ 
жение из рецепта 7.13, который будет выполнять обход всех совпаде¬ 
ний, проверять, содержит ли группа зГаГиз код 404 и начинается ли 
группа геГеггег с РГГр://ѵ\мѵ\/.ѵоиг 5 іГехот , и при выполнении обоих усло¬ 
вий выводить текст совпадений с группами геГеггег и гедиезГ. В целом 
это неплохое решение. Его преимущество заключается в возможности 
добавить в сценарий дополнительные проверки. 

Однако поставленную в этом рецепте задачу легко решить с помощью 
одного только регулярного выражения без применения программного 
кода. Вы сможете открыть файл журнала в том же текстовом редакто¬ 
ре, в котором правите свой веб-сайт, и с помощью регулярного выраже¬ 
ния, представленного как решение, отыскать ошибки 404, соответст¬ 
вующие недействительным ссылкам на вашем веб-сайте. Это регуляр¬ 
ное выражение основано на выражении из рецепта 7.13. Мы рассмот¬ 
рим процесс создания выражения на примере версии, использующей 
именованные сохранения в стиле .ЫЕТ. Версии, использующие имено¬ 
ванные сохранения в стиле РуіЬоп или нумерованные сохранения, име¬ 
ют ту же структуру - они отличаются только синтаксисом определения 
сохраняющих групп. 

Фактически требуется только проверить, не содержит ли совпадение 
с группой зГаГиз код 404 и не начинается ли совпадение с группой 
геГеггег с доменного имени вашего сайта: 

~(?<с1іеп1:>\3+)Л5+*(?<и5егід>\3+)Л[(?<сіаГе1:і[тіе>[Л]]+)\^ 

• "(?<теГІіо(і>[А-2]+)*(?<гедие5Г>[~*"]+)?*НТТР/[0-9. ]+"*(?<зГаГиз>404) и 
«(?<зі2е>[0-9]+| -)*"(?<геГеггег>ИГГр://ш\л/\. уоигзіГе\. сот[''”]*)" «- 1 
•"(?<и5егадепг>[~"]*)" 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа 7, ХКе^Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 
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Это регулярное выражение уже решает поставленную задачу. Но оно не¬ 
достаточно эффективно. Выражение совпадает с целой записью в файле 
журнала, а нам требуются только группы гедиезі:, зіаіиз и ге'Реггег. 
Группа изегадепі вообще не влияет на совпадение, поэтому от нее впол¬ 
не можно избавиться: 

''(?<с1іепі:>\5+)*\3+*(?<изегісІ>\3+)*\[ (7<сІа1:еі:іте>[''\]]+)\] и 
^"(?<те1:1аос1>[А-2]+)^ (?<гедиез1:>[ Л ^” ]+)?^НТТР/[0-9. ]+"^(?<зТа1:из>404)и 
«(?<5І2е>[0-9]+| -)^"(?<ге1 = еггег>1тІ:1:р \//тѵі\. уоигзіТеѴ сот[~" ]*)" 

Параметры: символам " и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЬу 1.9 

Убрать группы с сііепі: по теІНосі не так просто. Они привязывают регу¬ 
лярное выражение к началу строки и гарантируют правильное пози¬ 
ционирование групп с гедиезі: по геі^еггег. Если потребуется удалить ка¬ 
кие-либо группы, находящиеся в начале регулярного выражения, необ¬ 
ходимо гарантировать совпадение регулярного выражения с требуе¬ 
мыми полями. В случае с файлами журналов это не такая большая 
проблема. Большая часть полей имеет уникальное содержимое, и наше 
регулярное выражение достаточно детализировано. Оно явно проверяет 
наличие квадратных скобок и кавычек в полях, где они должны быть, 
допускает наличие только чисел в числовых полях, явно проверяет сов¬ 
падение с фиксированным текстом, таким как «НТТР», и т. д. Если бы 
мы поддались лени и для сопоставления со всеми полями использовали 
<\3+>, мы не смогли бы сократить регулярное выражение еще больше, 
так как <\3+> совпадает практически со всем что угодно. 

Нам также нужно сохранить эффективность регулярного выражения. 
Символ крышки в начале гарантирует, что попытка сопоставления бу¬ 
дет выполняться только с начала каждой строки. Если совпадение со 
строкой не будет найдено из-за того, что код состояния не равен 404 или 
адрес ШИ. веб-страницы, сославшейся на данный ресурс, содержит 
другое доменное имя, регулярное выражение сразу же перейдет к сле¬ 
дующей строке в журнале. Если бы нам потребовалось убрать все, что 
предшествует группе <(?<гедиезІ>[~* "]+)?>, регулярное выражение начи¬ 
налось бы с подвыражения <[~♦"]+>. Механизм регулярных выражений 
вынужден был бы тогда сравнить каждый символ в файле с пробелом 
и кавычкой. На больших файлах это существенно замедлило бы работу 
регулярного выражения. 

Отличной точкой усечения головы данного регулярного выражения яв¬ 
ляется подвыражение < ”(?<те1:1пос1>[А-7]+)>. Чтобы еще больше повысить 
его эффективность, можно указать, что интерес представляют всего две 
альтернативы: 

"( ?<те1:Рос1>0ЕТ | Р08Т)*(?<гериез1:>["]+)?♦ НТТР/[0-9. ]+"*(?<з1:а1:из>404)и 
*(?<зі2е>[0-9]+| - )*”(?<ге1"ег гег>Іт1:1:р://\л/ш\. уоигзіТе\. сот[ 

Параметры: символам " и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа 7, ХКе&Ехр, РСКЕ 7, Регі 5.10, КиЪу 1.9 
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Эта версия регулярного выражения начинается с литерала кавычки. 
Обычно регулярные выражения, начинающиеся с литерального тек¬ 
ста, оказываются весьма эффективными, потому что механизмы регу¬ 
лярных выражений часто используют дополнительные оптимизации 
для подобных случаев. Каждая запись в файле журнала имеет шесть 
кавычек, то есть будет выполнено не более шести попыток сопоставить 
это регулярное выражение с каждой записью, не содержащей код со¬ 
стояния 404. В пяти случаях из шести сопоставление будет терпеть не¬ 
удачу немедленно, на операторе выбора <6ЕТ|Р03Т>. Шесть попыток сопо¬ 
ставления на каждую строку может показаться менее эффективным 
решением, чем одна попытка, но это не так - немедленный отказ на со¬ 
поставлении с <6ЕТ|Р03Т> будет выполняться быстрее, чем сопоставление 
с <''(?<с1іеп1:>\3+)*\3+*(?<изегісІ>\3+)*\[(?<сІа1;е1:іте>[Л]]+)\]*>. 

И заключительной оптимизацией является отказ от неиспользуемых 
сохраняющих групп. Некоторые из них можно удалить полностью. 
Другие, как например группу с оператором выбора, можно заменить 
простыми несохраняющими группами. В результате получается регу¬ 
лярное выражение, представленное в разделе «Решение». 

В заключительной версии остались две сохраняющие группы: Гііе 
и геГеггег. Когда это регулярное выражение будет использоваться в тек¬ 
стовом редакторе или с инструментом &гер, способными извлекать 
текст, совпавший с сохраняющими группами, вы сможете настроить 
свой инструмент на выбор текста только из групп Гііе и геГеггег. Это по¬ 
зволит получить список недействительных ссылок и страниц, где они 
находятся, очищенный от лишней информации. 

См. также 

Рецепт 7.12, где рассказывается, как с помощью регулярного выраже¬ 
ния анализировать записи в файле журнала веб-сервера. В нем также 
приводятся ссылки на рецепты в главе 2 с описанием синтаксических 
конструкций регулярных выражений, используемых в этом рецепте. 
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Помимо чисел, которые рассматривались в главе 6, еще одной важной 
темой, которая касается широкого круга программ, является поиск со¬ 
впадений с различными путями и адресами, которые используются для 
поиска данных: 

• Адреса ШІЬ, ШШ и связанные с ними строки 

• Доменные имена 

• ІР-адреса 

• Имена файлов и папок в операционной системе ЛѴіпсклѵз 

Формат записи адресов ІШЬ оказался настолько гибким и удобным, 
что был принят для обозначения адресов различных ресурсов, которые 
вообще не имеют отношения к Всемирной паутине (^ѴогЫ ЛѴісІе ЛѴеЪ). 
По этой причине приемы синтаксического анализа текста с помощью 
регулярных выражений, которые приводятся в этой главе, будут весь¬ 
ма полезны в самых разных ситуациях. 

8.1. Проверка адресов 1)КІ_ 

Задача 

Необходимо проверить, является ли заданный фрагмент текста адре¬ 
сом ІШЬ, допустимым в некоторой ситуации. 

Решение 

Допускает практически любые адреса ШІЬ: 

ДІтШрз? | Нр| Ше) ://.+$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЕсгірі;, РСКЕ, Регі, РуѣЬоп 
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\А(Тііііірз? | Гір | Гііе )://.+\1 

Параметры: нечувствительность к регистру символов 
Диалекты: ^ЕТ, Лѵа, РСКЕ, Регі, РуНюп, КиЬу 

Требует доменное имя и не допускает наличия имени пользователя или 
пароля: 

\А # Якорь 

(ІтИрз? | ГТр) :// # Схема 

[а-^0-9-]+(\.[а-г0-9-]+)+ # Домен 

([/?]•*)? # Путь и/или параметры 

V # Якорь 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуПюп, КиЬу 

''(ПТТрз? | ГТр) ://[а-гО-9-]+(\. [а-гО-9-]+)+^ 

([/?].+)?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуЙюп 

Требует доменное имя и не допускает наличия имени пользователя или 
пароля. Позволяет опускать схему (Ьйр или Йр), если она может быть 
определена из имени поддомена (лѵлѵтѵ или Йр): 

\А # Якорь 

(( ІтЫрз? | ГТр) ://| (ш\л/| Г1:р)\.) # Схема адресации или поддомен 
[а-г0-9-]+(\.[а-г0-9-]+)+ # Домен 

([/?]•*)? # Путь и/или параметры 

\2 # Якорь 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЬу 

“((Іт^рз? | ГТр) ://| (шм| Т1:р)\.)[а-гО-9-]+(\. [а-гО-9-]+)+([/?]. *)?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуЙюп 

Требует доменное имя и путь, ведущий к файлу с изображением. Имя 
пользователя, пароль или параметры не допускаются: 

\А # Якорь 

(ИТТрз?|ГТр):// # Схема адресации 

[а-гО-9-]+(\.[а-г0-9-]+)+ # Домен 

(/[\ѵ^-]+) * # Путь 

/[\и-]+Ѵ(діТ |рпд|зрд) # Файл 

V # Якорь 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЬу 
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~(П1:1:рз?|Пр) ://[а-20-9-]+(\. [а-гО-9-]+)+(/[\м-]+)]+\. (діГ | рпд Нрд)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: ^ЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп 

Обсуждение 

Невозможно создать регулярное выражение, совпадающее со всеми до¬ 
пустимыми адресами ІІКЬ и не совпадающее с каким-нибудь недопус¬ 
тимым адресом ІІКЬ. Причина состоит в том, что практически все что 
угодно может стать допустимым адресом ІІКЬ в еще не изобретенной 
схеме адресации. 

Проверка адреса ЬГКЬ полезна, только когда известен контекст, в кото¬ 
ром этот адрес может быть признан допустимым. В этом случае можно 
ограничить круг допустимых адресов ЬГКЬ в соответствии со схемами 
адресации, поддерживаемыми используемым программным обеспече¬ 
нием. Все регулярные выражения в этом рецепте предназначены для 
проверки ІІКЬ, используемых веб-браузерами. Эти адреса ІІКЬ записы¬ 
ваются в следующем виде: 

зсРете://изег: раззѵуогсІ@сІотаіп . пате:80/ра1:1УШе. ех1:?рагат=ѵа1ие&рагат2и 
=ѵа1ие2#^гадтеп1: 

Все эти части на практике являются необязательными. В ІІКЬ типа 
Іііе: используется только путь. В ІІКЬ ІпЫір : обязательным является 
только доменное имя. 

Решения, представленные в этом рецепте, реализуют общепринятые 
правила определения допустимости адресов ІІКЬ, используемые боль¬ 
шинством веб-браузеров и других приложений. Они не пытаются реа¬ 
лизовать правила, определяемые документом КЕС 3986, являющимся 
официальным стандартом ІІКЬ. Если вам требуется решение, соответ¬ 
ствующее положениям КЕС 3986, обращайтесь к рецепту 8.7. 

Первое регулярное выражение в этом решении проверяет, начинается 
ли адрес ІІКЬ с названия одной из схем адресации, наиболее часто ис¬ 
пользуемых веб-браузерами: Ітіір, РІІрз, Ир и Іііе. Якорный метасим¬ 
вол Г> привязывает регулярное выражение к началу текста (рецепт 2.5). 
Конструкция выбора (рецепт 2.8) используется для представления спи¬ 
ска схем. <Р1:1:рз?> - это интеллектуальный способ представить конструк¬ 
цию <1тПр|1гИр5>. 

Поскольку первое регулярное выражение допускает достаточно разные 
схемы адресации, такие как РИр и Іііе, оно не пытается проверить кор¬ 
ректность текста, следующего за именем схемы. Выражение <.+$> про¬ 
сто поглощает все, что встретится ему до конца текста, при условии, что 
текст не содержит символов разрыва строки. 

По умолчанию точке (рецепт 2.4) соответствуют все символы, за исклю¬ 
чением символов разрыва строки. В этом отношении диалект КиЪу яв¬ 
ляется исключением. В КиЪу символ крышки и знак доллара всегда 
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совпадают с символами разрыва строки, и поэтому вместо них мы ис¬ 
пользовали метасимволы <\А> и <Ѵ> (рецепт 2.5). Строго говоря, то же 
самое следовало бы сделать со всеми регулярными выражениями в этом 
рецепте, чтобы адаптировать их для работы с диалектом КиЪу. Следова¬ 
ло бы, - если бы входной текст мог бы содержать несколько строк и тре¬ 
бовалось бы избежать совпадения с ІІКЬ, занимающим одну из строк 
в тексте. 

Следующие два регулярных выражения записаны в режиме свободного 
форматирования (рецепт 2.18) и в обычном виде. Выражение, записанное 
в режиме свободного форматирования, проще читать, тогда как обычное 
регулярное выражение легче вводить. Диалект ^ѵаЗсгірі не поддер¬ 
живает режим свободного форматирования регулярных выражений. 

Эти два регулярных выражения принимают только адреса ІІКЬ для веб 
и ГТР и требуют, чтобы за именем схемы НТТР или РТР следовало не¬ 
что, похожее на допустимое доменное имя. Доменное имя должно запи¬ 
сываться символами А8СП. Интернационализированные домены (ГО1Ч) 
не принимаются. За доменом может следовать путь или список парамет¬ 
ров, отделяемый от домена символом слэша или знаком вопроса. По¬ 
скольку знак вопроса находится внутри символьного класса (рецепт 2.3), 
его не требуется экранировать. В символьных классах знак вопроса ин¬ 
терпретируется как обычный символ, а символ слэша интерпретирует¬ 
ся как обычный символ в любом месте регулярного выражения. (Если 
его и можно встретить в исходных текстах программ экранированным 
обратным слэшем, то только потому, что в языке Регі и некоторых дру¬ 
гих символ слэша используется как разделитель в литералах регуляр¬ 
ных выражений.) 

В выражении не предпринимается попыток проверить корректность 
пути или параметров. Элемент <. *> просто совпадает со всем подряд, кро¬ 
ме символов разрыва строки. Поскольку и путь, и параметры являются 
необязательными, подвыражение <[/?].*> заключено в группу, которая 
сделана необязательной с помощью квантификатора <?> (рецепт 2.12). 

Эти регулярные выражения и те, что следуют ниже, не допускают воз¬ 
можности передачи имени пользователя или пароля в строке адреса 
ІІКЬ. Размещение информации о пользователе в строке ІІКЬ считается 
плохой практикой из соображений безопасности. 

Большинство веб-браузеров принимают адреса ІІКЬ, которые не содер¬ 
жат имени схемы адресации, и правильно определяют ее исходя из до¬ 
менного имени. Например, адрес \л/\л/\л/. гедехЬисІсІу. сот - это сокращенная 
форма записи адреса 1гПр://\л/\л/\л/. гедехЬисІсІу. сот. Чтобы обеспечить воз¬ 
можность совпадения с такими адресами ІІКЬ, мы просто расширили 
в регулярном выражении список допустимых схем, включив в него под¬ 
домены VIVIVI. и Ир.. 

Выражение <(Іп1:1:рз? | ‘ГЬр) ://| (\л/\л/\л/| _ М:р)\. > прекрасно справляется с этим. 
В этом списке присутствуют две альтернативы, каждая из которых на¬ 
чинается с двух других альтернатив. Первая группа альтернатив обес- 
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печивает совпадение с <М1рз?> и < _ Г1:р>, за которыми должна следовать 
последовательность < ://>. Вторая группа альтернатив обеспечивает сов¬ 
падение с <ѵ\мт и <1^р>, за которыми должна следовать точка. Вы легко 
можете отредактировать оба списка, чтобы изменить названия схем ад¬ 
ресации и имена поддоменов. 

Последние два регулярных выражения требуют наличия в ШИ. схемы, 
доменного имени, записанного символами А8СІІ, пути и имени файла 
с изображением в формате СИГ, РЖт или ЗРЕП. Путь и имя файла могут 
состоять из символов и цифр любого алфавита, а также включать сим¬ 
волы подчеркивания и дефисы. Все это, кроме дефиса, включает сокра¬ 
щенная форма записи символьного класса <\\л/> (рецепт 2.3). 

Какое из этих регулярных выражений следует использовать? Это во 
многом зависит от того, что вы собираетесь делать. Во многих ситуаци¬ 
ях ответом на этот вопрос может быть отказ от использования регуляр¬ 
ных выражений вообще. Вместо этого нужно будет просто попытаться 
выполнить запрос по проверяемому адресу. Если в ответ будет возвра¬ 
щено допустимое содержимое, этот адрес можно признать корректным. 
Если будет получена ошибка с кодом 404, адрес можно отвергнуть. В ко¬ 
нечном счете, это единственный способ проверить действительность ад¬ 
реса ШІЬ. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецеп¬ 
те, обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.8 описывается применение оператора выбора. 
В рецепте 2.9 рассказывается о группировке. В рецепте 2.12 объясняет¬ 
ся, как организовать сопоставление с повторяющимися комбинациями 
символов. 

Рецепт 8.7, в котором описывается решение, совместимое с КГС 3986. 

8.2. Поиск адресов ши. в тексте 

Задача 

Требуется отыскать адреса ЬГКЬ в текстовом документе. Адреса ШІЬ 
могут окружаться такими знаками пунктуации, как круглые скобки, 
не являющиеся частью адреса. 

Решение 

Адреса ЬГКЬ без пробелов: 

\Ь(Ш1:р$? | Нр| Тііе) ://\3+ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуИюп, КиЪу 
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Адреса ІШЬ без пробелов или завершающих знаков пунктуации: 

\Ь(Іі«рз?|1 : 1:р|Ше)://[-А-20-9+&@#/%?=;_|$! :, . ; ]0 
[А-20-9+&@#/%=“_|$] 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЛѵаЗсгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Адреса ІШЬ без пробелов или завершающих знаков пунктуации. На¬ 
именование схемы адресации может отсутствовать в адресах, начинаю¬ 
щихся с имени поддомена мѵм или Пр: 

\Ь((ШГрз? | ГТр| Гііе) ://| (ш\л/| ГГр)\. )[-А-20-9+&@#/%?=~_| $! :, . ; ]0 
[А-20-9+&@#/%=~_|$] 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Пусть имеется текст: 

ѴізіГ |ЦГр://шм. зотезіііе. сот/раде, ѵѵ/Реге уои ѵуііі ГіпсІ тоге іпГогтаТіоп. 

Какая его часть является адресом ІШЬ? 

Прежде чем указать на фрагмент Н11р://мм. зотезіііе.сот/раде, подумай¬ 
те о следующем: знаки пунктуации и пробелы являются допустимыми 
символами в адресах ІШЬ. Хотя документ КГС 3986 (рецепт 8.7) не до¬ 
пускает появление литералов пробелов в адресах ІШЬ, все основные 
браузеры принимают и прекрасно справляются с пробелами в ІШЬ. Не¬ 
которые визуальные средства создания веб-страниц позволяют пользо¬ 
вателям вставлять пробелы в имена файлов и папок и включают эти 
пробелы в виде литералов в ссылки на эти файлы. 

Это означает, что регулярное выражение, совпадающее со всеми допус¬ 
тимыми адресами ІШЬ, в предыдущем тексте должно совпасть с фраг¬ 
ментом: 

Н1Цр://ѵѵш.зотезіііе. сот/раде, мИеге уои ѵуііі ГіпсІ тоге іпГогтаііоп. 

Вероятность, что человек, напечатавший это предложение, предпола¬ 
гал включить пробелы в адрес ІШЬ, весьма невелика. Первое регуляр¬ 
ное выражение в решении исключает их с помощью сокращенной фор¬ 
мы записи символьного класса <\3>, который совпадает со всеми симво¬ 
лами, не являющимися пробельными. Даже при том, что предусматри¬ 
вается работа регулярного выражения в режиме «нечувствительности 
к регистру символов», символ 8 должен быть символом верхнего регист¬ 
ра, потому что метасимвол <\5> — это далеко не то же самое, что метасим¬ 
вол <\з>. Они имеют совершенно противоположные значения. Подроб¬ 
нее о них рассказывается в рецепте 2.3. 

Первое регулярное выражение все еще достаточно сырое. Оно включит 
в совпадение запятую, которая следует за адресом ІШЬ в примере. Не- 
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смотря на то что запятые и другие знаки пунктуации не являются чем- 
то необычным в адресах ІШЬ, тем не менее в конце адреса они исполь¬ 
зуются крайне редко. 

В следующем регулярном выражении вместо одного метасимвола <\3> 
используются два символьных класса. Первый класс включает в себя 
большее число знаков пунктуации, чем второй. Второй класс содержит 
знаки пунктуации, которые в соответствии с правилами английского 
языка с наибольшей вероятностью могут появиться в предложении по¬ 
сле адреса ІШЬ. Первый класс имеет квантификатор «звездочка» (ре¬ 
цепт 2.12), который обеспечивает возможность совпадения с ІЖЬ про¬ 
извольной длины. Второй символьный класс не имеет квантификатора, 
требуя тем самым, чтобы адрес ІШЬ оканчивался одним из символов, 
перечисленных в этом классе. Символьный класс не содержит алфавит¬ 
ных символов нижнего регистра, потому что предполагается работа 
в режиме «нечувствительности к регистру символов». Порядок установ¬ 
ки режимов в различных языках программирования описывается в ре¬ 
цепте 3.4. 

Второе регулярное выражение будет неправильно определять адреса 
ІШЬ, в которых некорректно используются знаки пунктуации, совпа¬ 
дая лишь с частью адреса. Но это регулярное выражение решает наибо¬ 
лее типичную проблему, связанную с запятой или точкой, следующей 
сразу за адресом ІШЬ. 

Большинство веб-браузеров принимают адреса ІШЬ, в которых отсутст¬ 
вует указание схемы адресации, корректно определяя ее исходя из до¬ 
менного имени. Например, адрес мш.гедехЬисісІу.сот является сокращен¬ 
ной формой записи адреса И1:1:р://\л/\л/\л/. гедехЬисІсІу. сот. Чтобы обеспечить 
возможность совпадения с такими адресами ІІКЬ, последнее регуляр¬ 
ное выражение расширяет список допустимых схем адресации, вклю¬ 
чая в него поддомены шѵі. и -ГЬр.. 

Подвыражение < (МЫгрз? | Ы:р) ://1 (\л/\л/\л/ | Ы:р)\. > прекрасно справляется с этой 
задачей. В этом списке присутствуют две альтернативы, каждая из ко¬ 
торых в свою очередь начинается с двух альтернатив. Первая альтерна¬ 
тива совпадает с <И1:1:рз?> и <1Чр>, за которыми следует последовательность 
символов < ://>. Вторая альтернатива совпадает с <тю или <1Чр>, за кото¬ 
рыми следует точка. Список схем и поддоменов, принимаемых регуляр¬ 
ным выражением, может быть изменен в соответствии с конкретной за¬ 
дачей. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. В рецепте 2.8 описы¬ 
вается применение оператора выбора. В рецепте 2.9 рассказывается 
о группировке. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. 
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В рецепте 8.5 приводится замещающий текст, который можно исполь¬ 
зовать в комбинации с этим регулярным выражением для реализации 
операции поиска с заменой, выполняющей преобразование адресов ІШЬ 
в гиперссылки НТМЬ. 

8.3. Поиск в тексте адресов IIВЦ 
заключенных в кавычки 

Задача 

Требуется отыскать адреса ІШЬ в текстовом документе. Адреса ИКЬ мо¬ 
гут быть окружены знаками пунктуации, являющимися частью окру¬ 
жающего текста, а не самого адреса ШП*. Необходимо предоставить 
пользователю возможность заключать адреса ІІКЬ в кавычки, чтобы 
можно было явно показать, когда пробелы и знаки пунктуации явля¬ 
ются частью ШНі. 

Решение 

\Ь(?: (?: ШГрз? | Г1:р| Гііе) ://| (\л/ш| Г1:р)\. )[-А-20-9+&@#/%?=~_| $! 

[-А-20-9+&@#/%=~_|$] 

| ”(?:(?: Шіірз? | Гѣр| Гііе) ://| (ш\л/| Гір)\. )[ Л ”\г\п]+" 

| ’(?:(?: Гі1:1:рз? | Пр | Гііе) ://| (ѵѵш| Г1:р)\. )[~'\г\п]+ ’ 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов, точке соответствуют границы строк, якор¬ 
ным метасимволам соответствуют границы строк 
Диалекты: .МЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЬу 

Обсуждение 

В предыдущем рецепте рассматривалась задача поиска адресов ІШЬ 
в тексте и как отличать знаки пунктуации в тексте от символов ІШЬ. 
И хотя решение в предыдущем рецепте пригодно для использования 
в большинстве случаев, тем не менее ни одно регулярное выражение не 
может гарантировать абсолютную надежность во всех ситуациях. 

Если предполагается, что регулярное выражение будет применяться 
к создаваемым впоследствии текстовым документам, то можно предо¬ 
ставить пользователям возможность заключать адреса ІШЬ в кавычки. 
Решение, представленное здесь, позволяет заключать адреса ІШЬ в оди¬ 
нарные или двойные кавычки. Если адрес ШП. помещен в кавычки, он 
должен начинаться с одной из схем <ИІІрз?|Г1:р|Гі1е> или с одного из под¬ 
доменов <\л/\л/\л/|-Г 1:р>. Вслед за схемой или поддоменом регулярное выраже¬ 
ние допускает наличие любых символов, за исключением разрывов 
строк и кавычек, окружающих ШП.. 

Регулярное выражение делится на три альтернативы. Первая альтерна¬ 
тива - это регулярное выражение из предыдущего рецепта, совпадающее 
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с адресом ІІКЬ без кавычек и пытающееся отличать знаки пунктуации 
и символы ІІКЬ. Вторая альтернатива совпадает с адресом ІІКЬ в ка¬ 
вычках. Третья альтернатива совпадает с адресом ІІКЬ в апострофах. 
Мы использовали две альтернативы вместо одной - с сохраняющей 
группой, включающей открывающую кавычку, и обратной ссылкой на 
закрывающую, - потому что обратную ссылку нельзя использовать 
внутри инвертированного символьного класса, исключающего кавыч¬ 
ки из ІШЬ. 

Мы использовали кавычки и апострофы, потому что таким образом 
обычно оформляются адреса ІІКЬ в файлах НТМЬ и ХНТМЬ. Заключе¬ 
ние адресов в кавычки привычно для тех, кто занимается разработкой 
веб-страниц, но вы легко сможете добавить в регулярное выражение 
другие пары символов, ограничивающих адреса ІІКЬ. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 объясняется, как искать совпаде¬ 
ния с непечатаемыми символами. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.6 говорится о границах слов. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 

8.4. Поиск в тексте адресов 
заключенных в скобки 

Задача 

Требуется отыскать адреса ІІКЬ в текстовом документе. Адреса ІІКЬ 
могут окружаться знаками пунктуации, являющимися частью окру¬ 
жающего текста, а не самого адреса ІІКЬ. Необходимо обеспечить кор¬ 
ректное совпадение с адресами ІІКЬ, содержащими пары круглых ско¬ 
бок, при этом не включая в совпадение скобки, окружающие адрес 
ІІКЬ. 

Решение 

\Ь(?: (?: (тЫрз? І'Г'СрІ Ше)://|ши\. | Мр\.) 

(?:\([-А-20-9+&@#/%='_|$?!.]*\)|[-А-20-9+&@#/%=~_|$?! :,.])* 

(?:\([-А-20-9+&@#/%=~_|$?!:,.]*\)|[А-20-9+&@#/%=~_|$]) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, <Іаѵа, РСКЕ, Регі, РуіЬоп, КиЬу 

\Ь(?:(?:Н«рз?|Пр|те)://|млЛ. |Мр\.)(? :\([-А-20-9+&@#/%=~_|$?! . ]*\)-І 

| [-А-20-9+&@#/%=~_|$?! :, .])*(? :\([-А-20-9+&@#/%=~_| $?! :, . ]*\)М 
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[А-20-9+&@#/%=~_ | $]) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЪу 

Обсуждение 

В адресах ІІКЬ допустимым считается практически любой символ, 
включая и круглые скобки. Однако скобки очень редко встречаются 
в адресах, и именно поэтому мы не включили их в регулярные выраже¬ 
ния, которые приводились в предыдущих рецептах. Тем не менее на не¬ 
которых крупных веб-сайтах скобки все же используются: 

ШТр: //еп. ѵѵ/ікіресііа . о гд/\л/ікі/РС_Тоо1з_(Сеп1: га1_Роіп1:_ЗоГ1:маге) 

И1:1:р: //тзсіп. пісгозоГІ:. сот/еп-из/1іЬгагу/аа752574(ѴЗ.85). азрх 

Одно из решений заключается в том, чтобы потребовать от пользовате¬ 
ля заключать такие адреса ІШЬ в кавычки. Другое - расширить регу¬ 
лярное выражение так, чтобы оно принимало такие ІШЬ. Самое слож¬ 
ное состоит в том, чтобы определить, какая из закрывающих скобок 
является частью ІІКЬ, а какая является знаком пунктуации, завер¬ 
шающим ІІКЬ, как в следующем примере: 

ЯедехВисісІу’з меЬзіІіе (а* ИПр://\л/ш. гедехЬисІсІу. сот) із геаііу сооі. 

Так как вполне возможно, что одна из скобок является ограничиваю¬ 
щим знаком пунктуации, а другая - нет, мы не можем использовать 
прием заключения адреса в кавычки из предыдущего рецепта. Наибо¬ 
лее простое решение состоит в том, чтобы разрешить появление скобок 
внутри адресов ІІКЬ, только когда они не являются вложенными пара¬ 
ми открывающих и закрывающих скобок. Адреса ІІКЬ Википедии 
и Місгозоій отвечают этим требованиям. 

Оба регулярных выражения, которые приводятся в решении, делают 
одно и то же. Первое из них записано в режиме свободного форматиро¬ 
вания, чтобы упростить его чтение. 

Эти регулярные выражения, по сути, представляют собой последнее ре¬ 
гулярное выражение из рецепта 8.2. Они делятся на три части: список 
схем адресации, затем тело ІІКЬ, в котором используется квантифика¬ 
тор «звездочка», чтобы обеспечить совпадение с ІІКЬ любой длины, и за¬ 
вершающий символ ІІКЬ, для которого не предусмотрен квантифика¬ 
тор (то есть этот символ должен появляться точно один раз). В ориги¬ 
нальном регулярном выражении в рецепте 8.2 вторая и третья части 
(тело ІІКЬ и завершающий символ) состояли из единственного символь¬ 
ного класса. 

В решениях для этого рецепта они были заменены двумя более сложны¬ 
ми символьными классами. Символьный класс в середине: 

[-А-20-9+&@#/%=~_|$?!] 


превратился в 
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\([-А-20-9+&@#/%=~_|$?!.]*\)|[-А-20-9+&@#/%=“_|$?!] 

Последний символьный класс: 

[А-20-9+&@#/%=~_|$] 
превратился в 

\([-А-20-9+&@#/%=~_|$?!.]*\)I[А-20-9+&@#/%=’_|$] 

Оба символьных класса заменили конструкции выбора (рецепт 2.8). 
Поскольку оператор выбора имеет самый низкий приоритет среди всех 
операторов регулярных выражений, для объединения альтернатив мы 
использовали несохраняющую группировку (рецепт 2.9). 

В оба символьных класса была добавлена альтернатива <\([-А-20-9+&@#/ 
%=~_|$?!:,.]* \)>, при этом оригинальный класс остался в качестве другой 
альтернативы. Новая альтернатива совпадает с парами круглых скобок 
с произвольным числом символов, допустимых в адресах ШП., между 
ними. 

Заключительный символьный класс был объединен с той альтернати¬ 
вой, которая позволяет адресам ІШЬ оканчиваться текстом в круглых 
скобках или единственным символом, который наименее вероятно мо¬ 
жет служить знаком пунктуации. 

В результате объединения получилось регулярное выражение, совпа¬ 
дающее с адресами ІШЪ, включающими любое число круглых скобок, 
а также с адресами ІШЬ без круглых скобок и даже с адресами ІШЬ, не 
содержащими ничего, кроме скобок, при условии, что они парные. 

В часть регулярного выражения, совпадающего с телом ІШЬ, мы доба¬ 
вили квантификатор «звездочка» для всей несохраняющей группы. 
Это обеспечило возможность появления любого числа пар круглых ско¬ 
бок в ІШЬ. Так как теперь вся несохраняющая группа получила кван¬ 
тификатор «звездочка», отпала необходимость в квантификаторе «звез¬ 
дочка» для оригинального символьного класса. На самом деле, звездоч¬ 
ку необходимо убрать в обязательном порядке. 

Средняя часть регулярного выражения, представленного в решении, 
имеет вид <(аЬ*с|с])*>, где <а> и <с>- это литералы круглых скобок, а <Ь> 
и <д> - символьные классы. Записать это регулярное выражение как 
<(аЬ*с|с!*)*> будет ошибкой. На первый взгляд оно может выглядеть ло¬ 
гично, потому что допускает совпадение с любым числом символов из 
класса <сІ>, но внешний квантификатор <*> уже обеспечивает повторение 
класса <сі>. Если для класса <сі> добавить еще одну звездочку, сложность 
регулярного выражения вырастет экспоненциально. Выражение <(сі*)*> 
может совпасть со строкой сісісісі множеством способов. Например, внеш¬ 
няя звездочка может выполнить четыре повторения, а внутренняя звез¬ 
дочка по одному повторению каждый раз. Внешняя звездочка может 
выполнить три повторения, а внутренняя звездочка - 2-1-1, 1-2-1 или 
1-1-2. Внешняя звездочка может выполнить два повторения, а внутрен¬ 
няя звездочка - 2-2, 1-3 или 3-1. Нетрудно понять, что с ростом длины 
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испытуемой строки количество возможных комбинации увеличивает¬ 
ся лавинообразно. Мы называем этот эффект катастрофическим воз¬ 
вратом; этот термин был введен в рецепте 2.15. Данная проблема прояв¬ 
ляется, когда регулярное выражение не в состоянии отыскать допусти¬ 
мое совпадение, например, потому что в регулярное выражение было 
что-то добавлено, чтобы получить возможность находить адреса ІШЬ, 
после или внутри которых содержится что-то специфическое, отвечаю¬ 
щее требованиям конкретной задачи. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.6 говорится о границах слов. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 

В рецепте 8.5 приводится замещающий текст, который можно использо¬ 
вать в комбинации с этим регулярным выражением для реализации 
операции поиска с заменой, выполняющей преобразование адресов ШП. 
в гиперссылки НТМЬ. 

8.5. Преобразование адресов ІЖІ. в ссылки 

Задача 

Имеется текстовый документ, который может содержать один или бо¬ 
лее адресов ИКЬ. Необходимо преобразовать эти адреса в ссылки, доба¬ 
вив в текст НТМЬ-теги <а>, заключив в них найденные ІІКЬ. Сами адре¬ 
са ІШЬ должны присутствовать в тексте документа как в виде адреса, 
на который указывает ссылка, так и в виде текста ссылки. 

Решение 

Чтобы отыскать адреса ІШЬ в тексте, можно воспользоваться одним из 
регулярных выражений из рецептов 8.2 или 8.4, а в качестве замещаю¬ 
щего текста использовать: 

<а*(пгеГ=”$&">$&</а> 

Диалекты замещающего текста: .ЫЕТ, Заѵа8сгір1, Регі 

<а«1пгеГ="$0">$0</а> 

Диалекты замещающего текста: .ИЕТ, Заѵа, ХКе^Ехр, РНР 

<а*ПгеГ=”\0">\0</а> 

Диалекты замещающего текста: РНР, КиЬу 
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<а*Мге1 : ="\&">\&</а> 

Диалект замещающего текста: КиЪу 

<а ^ О ге-Г=”\д<0> ” >\д<0></а> 

Диалект замещающего текста: РуѣЬоп 

При работе над программой можно реализовать эту операцию поиска 
с заменой, как описано в рецепте 3.15. 

Обсуждение 

Эта задача решается достаточно просто. Задействуется регулярное вы¬ 
ражение, совпадающее с адресом ІШЬ, и затем найденное совпадение 
замещается текстом <<<а*Нге^-ШОШ</а>>>, где ІІРИ представляет най¬ 
денный адрес ІІКЬ. В различных языках программирования использу¬ 
ется различный синтаксис определения замещающего текста; этим обу¬ 
словлен такой длинный список решений для этой задачи. Но все они, по 
сути, делают одно и то же. Описание синтаксиса замещающего текста 
приводится в рецепте 2.20. 

См. также 

Рецепты 8.2 и 8.4, где описываются регулярные выражения, которые 
можно использовать в комбинации с этим замещающим текстом. 

Приемы, использовавшиеся в замещающем тексте в этом рецепте, об¬ 
суждаются в главе 2. В рецепте 2.21 демонстрируется, как вставлять 
текст, совпавший с сохраняющей группой, в текст замены. 

В рецепте 3.15 описывается, как можно реализовать операцию поиска 
с заменой в программном коде. 

8.6. Проверка строк ІІКЫ 

Задача 

Требуется проверить, является ли строка допустимым унифицирован¬ 
ным именем ресурса (Цшіогт Кезоигсе Ыате, ШШ) в соответствии 
с определением в КГС 2141, или отыскать строки ШШ в текстовом до¬ 
кументе. 

Решение 

Проверить, является ли строка допустимым унифицированным име¬ 
нем ресурса: 

\Аигп: 

# Идентификатор пространства имен 
[а-г0-9][а-г0-9-]{0,31}: 

# Строка из определенного пространства имен 
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[а-20-9() + Л-. : =@; $_! * ’%/?#]+ 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, Заѵа, РСКЕ, Регі, Руііюп, КиЪу 

~игп:[а-20-9][а-20-9-]{0,31}:[а-г0-9()+,\-.:=@;$_!*’%/?«]+$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, Лѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуіЬоп 

Поиск строк ІІКЫ в текстовом документе: 

\Ьигп: 

# Идентификатор пространства имен 
[а-гО-9][а-гО-9-]{0,31}: 

# Строка из определенного пространства имен 
[а-г0-9()+,\-.:=@;$_!*’%/?#]+ 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, Лѵа, РСКЕ, Регі, РуПіоп, КиЬу 

\Ьигп:[а-гО-9][а-гО-9-]{0, 31}:[а-гО-9()+, \-.:=@;$_!*’%/?#]+ 

Парметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуЙюп, КиЬу 

Поиск строки ЦКЫ в текстовом документе; при этом предполагается, 
что знак пунктуации в конце ШШ является частью окружающего тек¬ 
ста (английского), а не самой строки ШШ: 

\Ьигп: 

# Идентификатор пространства имен 
[а-гО-9][а-гО-9-]{0,31}: 

# Строка из определенного пространства имен 
[а-іО-90+Д-. :=@;$_! *’%/?#]*[а-20-9+=@$/] 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуПюп, КиЬу 

\Ьигп:[а-20-9][а-20-9-]{0,31}:[а-г0-9()+,\-.:=@;$_!* , %/?#]*[а-20-9+=@$/] 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуЙюп, КиЪу 

Обсуждение 

Строка ІШЫ состоит из трех частей. Первая часть - это четыре символа 
игп:, которые можно добавить в регулярное выражение как литералы. 

Вторая часть - это идентификатор пространства имен (Ыатеврасе Меп- 
Шіег, N10). Он занимает от 1 до 32 символов. Первый символ должен 
быть буквой или цифрой. Остальные символы могут быть буквами, циф¬ 
рами или дефисами. Совпадение с идентификатором обеспечивается 
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с помощью двух символьных классов (рецепт 2.3): первому классу соот¬ 
ветствует буква или цифра, а второму - от 0 до 31 букв, цифр и дефисов. 
Идентификатор должен отделяться от остальной части ШШ двоеточи¬ 
ем, которое также можно добавить в регулярное выражение в виде ли¬ 
терала. 

Третья часть ШШ - это строка из определенного пространства имен 
(Ыатезрасе 8ресШс 81гіп&, N88). Она может иметь любую длину и в до¬ 
полнение к буквам и цифрам может включать любые знаки пунктуа¬ 
ции. Сопоставление с ней можно легко организовать с помощью другого 
символьного класса. Знак плюс, находящийся после символьного клас¬ 
са, повторяет его один или более раз (рецепт 2.12). 

Если необходимо проверить, является ли заданная строка допустимой 
строкой ШШ, достаточно лишь добавить якорные метасимволы в нача¬ 
ло и в конец регулярного выражения, чтобы обеспечить его привязку 
к началу и концу текста. Сделать это можно с помощью Г> и <$> во всех 
диалектах, за исключением КиЬу, или с помощью <\А> и <\2> во всех диа¬ 
лектах, за исключением ЗаѵаЗсгірІ. Подробнее об этих якорных мета¬ 
символах рассказывается в рецепте 2.5. 

Задача становится чуть сложнее, когда есть потребность отыскать стро¬ 
ки ШШ в текстовом документе. Проблема знаков пунктуации, прису¬ 
щая адресам ІШЬ и обсуждавшаяся в рецепте 8.2, также свойственна 
и строкам ШШ. Предположим, что имеется текст: 

Тйе ІШ із игп: пій :пзз, ізпЧ іі? 

Проблема заключается в определении, является ли запятая частью 
ШШ. Строки ШШ, оканчивающиеся запятой, синтаксически являются 
допустимыми, но любой человек, читающий это предложение, поймет, 
что запятая является знаком препинания, а не частью ШШ. Последнее 
регулярное выражение в разделе «Решение» решает эту проблему, на¬ 
кладывая ограничение, не предусмотренное документом НЕС 2141. Оно 
ограничивает последний символ строки ШШ набором символов, допус¬ 
тимых в части N88, но маловероятных в качестве знаков препинания, 
которые могут появляться в предложении на английском языке, где 
упоминается эта строка ШШ. 

Этого легко добиться, заменив квантификатор «плюс» (один или более 
раз) звездочкой (ноль или более раз) и добавив второй символьный 
класс, совпадающий с последним символом. Если бы мы добавили вто¬ 
рой символьный класс, не изменив квантификатор, тем самым мы по¬ 
требовали бы, чтобы часть N88 содержала как минимум два символа, 
а это не совсем то, что нам требуется. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных клас¬ 
сах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецепте 2.12 
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объясняется, как организовать сопоставление с повторяющимися ком¬ 
бинациями символов. В рецепте 2.18 описывается, как добавлять ком¬ 
ментарии. 

8.7. Проверка универсальных адресов ІІКІ. 

Задача 

Необходимо проверить, является ли заданный фрагмент текста адре¬ 
сом ШІЬ в соответствии с требованиями НЕС 3986. 

Решение 

\А 

(# Схема 

[а-г][а-г0-9+\-.]*: 

(# Авторизация и путь 

// 

([а-^0-9\-._~%!$&'()*+,;=]+@)? # Пользователь 

([а-г0-9\-._"%]+ # Имя хоста 

|\[[а-Г0-9:.]+\] # ІР-адрес хоста версии ІРѵб 

|\[ѵ[а-Г0-9][а-г0-9\-. _“%!$&’()*+, ; = : ]+\]) # ІР-адрес будущей версии ІРѵ... 

(:[0-9]+)? # Порт 

(/[а-г0-9\-._“%!$&'()*+,;=:@]+)*/? # Путь 

|# Путь без авторизации 

(/?[а-г0-9\-._~%!$&•()*+.;=:@]+(/[а-20-9\-._”%!$&’()*+,;=:©]+)*/?)? 

) 

|# Относительный ОРИ (без схемы или авторизации) 

(# Относительный путь 

[а-г0-9\-._~%! $&’()*+,; =@]+(/[а-г0-9\-._"%!$&'()*+,; = :©]+)*/? 

|# Абсолютный путь 

(/[а-20-9\-._“%!$&’()*+,;=:©]+)+/? 

) 

) 

# Строка запроса 

(\?[а-20-9\-._"%!$&•()*+,;=:©/?]*)? 

# Фрагмент 

(\#[а-г0-9\-._"%!$&’()*+,;=:@/?]*)? 

\2 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, Заѵа, РСКЕ, Регі, Руіііоп, КиЬу 

\А 

(# Схема 

(?<зсПете>[а-2][а-20-9+\-.]*): 

(# Авторизация и путь 

// 

(?<изег>[а-20-9\-._~%! $&’()*+,;=]+@)? 

(?<Иоз1:>[а-20-9\-. _“%]+ 


# Пользователь 

# Имя хоста 
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| \[[а-'ГО-Э:. ]+\] # ІР-адрес версии ІРѵб 

| \[ѵ[а-'Г0-9][а-20-9\-. _"%!$&' ()*+, ; = : ]+\]) # ІР-адрес будущей 

# версии ІРѵ... 

(?<рогІ> : [0-9]+)? # Порт 

(?<ра1:1п>(/[а-20-9\-._"%!$&’ ()*+,; = :@]+)*/?) # Путь 

|# Путь без авторизации 
(?<ра1:б>/?[а-20-9\-._~%! $&’()*+, ; = :@]+ 

(/[а-20-9\-._"%! $&'()*+,; = :@]+)*/?)? 

) 

|# Относительный ІІВІ_ (без схемы или авторизации) 

(?<ра1:І’і> 

# Относительный путь 

[а-20-9\-.$&’()*+,;=@]+(/[а-г0-9\-._~%!$&'()*+,;=:©]+)*/? 

|# Абсолютный путь 
(/[а-г0-9\-._~%!$&•()*+,;=:©]+)+/? 

) 

) 

# Строка запроса 

(?<диегу>\?[а-20-9\-._~%!$&'()*+.;=:@/?]*)? 

# Фрагмент 

(?<-Ггадтеп1:>\#[а-20-9\-. _~%! $&'()*+,; = :@/?]*)? 

V 

Параметры: режим свободного форматирования, нечувствительность 

к регистру символов 

Диалекты: .ЫЕТ, Регі 5.10, КиЪу 1.9 

\А 

(# Схема 

(?<5сбете>[а-2][а-20-9+\--]*): 

(# Авторизация и путь 

// 

(?<изег>[а-20-9\-._~%!$&'()*+,:=]+@)? # Пользователь 

(?<Ітоз1:>[а-20-9\- . _“%]+ # Имя хоста 

| \[[а-І0-9: .]+\] # ІР-адрес версии ІРѵб 

| \[ѵ[а-І0-9][а-20-9\-. _“%!$&'()*+,;=:]+\]) # ІР-адрес будущей 

# версии ІРѵ... 

(?<рог1:>: [0-9]+)? # Порт 

(?<Ітоз1:ра1:И>(/[а-20-9\- ._~%! $&’()*+, ; = :@]+)*/?) # Путь 

|# Путь без авторизации 
(?<зсбетераІб>/?[а-20-9\-._~%! $&’()*+,;=:@]+ 

(/[а-20-9\-._"%!$&’()*+,;=:©]+)*/?)? 

) 

|# Относительный ІІПЬ (без схемы или авторизации) 

(?<ге1ра1:б> 

# Относительный путь 

[а-20-9\-._"%!$&'()*+,:=@]+(/[а-20-9\-._'%!$&'()*+,;=:©]+)*/? 

|# Абсолютный путь 
(/[а-20-9\-.$&'()*+,:=:©]+)+/? 

) 

) 
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# Строка запроса 

(?<диегу>\?[а-20-9\-._"%!$&'()*+,;=:@/?]*)? 

# Фрагмент 

(?<Ггадтеп1:>\#[а-20-9\-._~%! $&'()*+. ; =:@/?]*)? 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа 7, РСКЕ 7, Регі 5.10, КиЬу 1.9 

\А 

(# Схема 

(?Р<зсНете>[а-2][а-20-9+\-.]*): 

(# Авторизация и путь 

// 

(?Р<изег>[а-20-9\-._"%!$&'()*+,;=]+@)? # Пользователь 

(?Р<Іюз1:>[а-20-9\-. _“%]+ # Имя хоста 

| \[[а-ГО-9:.]+\] # ІР-адрес версии ІРѵб 

| \[ѵ[а-Г0-9][а-20-9\-. _”%!$&'()*+.;=:] + \]) # ІР-адрес будущей 

# версии ІРѵ...й 

(?Р<рог1:>: [0-9]+)? # Порт 

(?Р<Іюз1:ра1:И>(/[а-20-9\-. _"%!$&’()*+, ; =:@]+)*/?) # Путь 

|# Путь без авторизации 

(?Р<зсПетера1:Іі>/?[а-20-9\-. _“%! $&'()*+,; = :@]+ 

(/[а-20-9\-._~%!$&’()*+,;=:@]+)*/?)? 

) 

|# Относительный ІІЯІ (без схемы или авторизации) 

(?Р< ге1ра1:Гі> 

# Относительный путь 

[а-20-9\-._"%!$&'()*+,;=@]+(/[а-г0-9\-._"%!$&'()*+,;=:©]+)*/? 

|# Абсолютный путь 
(/[а-20-9\-._'%!$&’()*+,;=:©]+)+/? 

) 

) 

# Строка запроса 

(?Р<циегу>\?[а-г0-9\-._"%!$&’()*+,;=:@/?]*)? 

# Фрагмент 

(?Р<Ггадтеп1:>\#[а-20-9\-. _~%! $&* ()*+,: = :@/?]*)? 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: РСКЕ 4 и более поздние версии, Регі 5.10, РуЙіоп 

~([а-2][а-20-9+\-. ]*:(\/\/([а-20-9\-._"%!$&’()*+, ;=]+@)?([а-20-9\-._~%]+М 
\[[а-Г0-9:.]+\]|\[ѵ[а-Г0-9][а-20-9\-._"%!$&’()*+,; = :]Л])(:[0-9]+)?и 
(\/[а-20-9\-._"%! $&’()*+, I = :@]+)*Ѵ? I (\/?[а-г0-9\-._“%! $&'()*+, ; = :@]+и 
(\/[а-г0-9\-._“%! $&'()*+, : = :@]+)Л/?)?) I ([а-г0-9\-._“%! $&'()*+,; =@1+^ 
(\/[а-20-9\-. _"%! $&*()*+, I = :@]+)*Ѵ? I (\/[а-г0-9\-._“%! $&’()*+,; =:©]+)-I 
Л/?)) 

(\?[а-20-9\-._"%!$&•()*+,;=:@\/?]*)?(#[а-г0-9\-._~%!$&’()*+,;=:@\/?]*)?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуіЬоп 
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Обсуждение 

Большинство предыдущих рецептов в этой главе, имевших отношение 
к адресам ІІКЬ, и регулярные выражения, приведенные в них, были 
рассчитаны на особые разновидности адресов ІІКЬ. Некоторые из регу¬ 
лярных выражений были адаптированы для конкретных нужд, таких 
как определение, является ли знак пунктуации частью ІІКЬ или тек¬ 
ста, где приводится этот адрес ІІКЬ. 

Регулярные выражения в данном рецепте предусматривают работу 
с универсальными адресами ІІКЬ. Они не ориентированы на поиск ад¬ 
ресов ІІКЬ в текстовых документах, а предназначены для проверки 
строк, которые, как предполагается, являются адресами ІІКЬ, и деле¬ 
ния адресов ІІКЬ на отдельные части. Они решают все эти задачи для 
любых типов ІІКЬ, при этом на практике часто требуется более тонкая 
настройка регулярных выражений. Рецепты, следующие далее, демон¬ 
стрируют такие специфические регулярные выражения. 

В документе КГС 3986 описывается, как должен выглядеть допустимый 
адрес ІІКЬ. Он охватывает все возможные разновидности адресов ІІКЬ, 
включая относительные ІІКЬ и адреса ІІКЬ для схем адресации, кото¬ 
рые еще не используются. В результате документ КГС 3986 получился 
чрезвычайно обширным, а регулярные выражения, реализующие его 
требования, - очень длинными. Регулярные выражения в этом рецепте 
реализуют только самые основные требования. Они достаточно надеж¬ 
но разбивают ІІКЬ на различные части, но не выполняют проверку каж¬ 
дой из этих частей. Проверка всех частей могла бы потребовать точных 
сведений о каждой схеме адресации, используемой в адресах ІІКЬ. 

Документ КГС 3986 охватывает не все адреса ІІКЬ, которые могут встре¬ 
чаться на практике. Например, многие веб-серверы и веб-браузеры при¬ 
нимают адреса ІІКЬ с литералами пробелов в них, хотя КГС 3986 требу¬ 
ет, чтобы пробелы были представлены как %20. 

Абсолютный адрес ІІКЬ должен начинаться с названия схемы, такой 
как ИІІр: или Ир:. Первый символ в названии схемы должен быть бук¬ 
вой. Последующие символы могут быть буквами, цифрами и некоторы¬ 
ми знаками пунктуации. Соблюдение этого требования можно легко 
реализовать с помощью двух символьных классов: <[а-2][а-20-9+\-.]*>. 

Во многих схемах адресации ІІКЬ требуется то, что в КГС 3986 называ¬ 
ется «авторизацией» («аиІЬогіІу»). Авторизация - это доменное имя 
или ІР-адрес сервера, которому может предшествовать имя пользовате¬ 
ля и за которым может следовать номер порта. 

Имя пользователя может состоять из букв, цифр и знаков пунктуации. 
Оно должно отделяться от доменного имени или ІР-адреса знаком @. 
Подвыражение <[а-г0-9\-. _“%!$&’()*+.;=]+@> совпадает с именем пользова¬ 
теля и разделительным знаком. 

Документ КГС 3986 достаточно либерально относится к набору симво¬ 
лов, которые могут составлять доменное имя. В рецепте 8.15 описывает- 
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ся, какие символы обычно допустимы в доменных именах: буквы, циф¬ 
ры, дефисы и точки. Кроме того, в КГС 3986 допускается использовать 
тильду и любые другие символы в формате записи со знаком процента. 
Доменное имя должно преобразовываться в кодировку ІІТТ-8, а любые 
байты, которые не являются буквами, цифрами, дефисами или тиль¬ 
дой, должны быть представлены в формате %ГГ 9 где Я 7 - это шестнадца¬ 
теричное представление значения байта. 

Чтобы сохранить простоту нашего оригинального регулярного выра¬ 
жения, мы отказались от проверки того, что за каждым знаком процен¬ 
та следуют точно две шестнадцатеричные цифры. Такого рода проверку 
лучше выполнить после того, как будут выделены отдельные части ад¬ 
реса ІШЬ. Так, мы обеспечиваем совпадение с именем хоста с помощью 
простого выражения <[а-г0-9\-. _"%]+>, которому также соответствуют ад¬ 
реса ІРѵ4 (допустимые в соответствии с КГС 3986). 

Кроме доменного имени и адреса ІРѵ4 хост может определяться адресом 
ІРѵб, заключенным в квадратные скобки, или даже версией ІР-адресов, 
возможной в будущем. Совпадение с адресами ІРѵб обеспечивается 
с помощью выражения <\[[а-Т0-9: .]+\]>, а с версией, возможной в буду¬ 
щем, -с помощью выражения <\[ѵ[а-Г0-9] [а-г0-9\-. _"%!$&'() *+, ; = :]+\]>. Мы 
не можем проверить ІР-адреса для версии, которая еще не существует, 
но мы могли бы более строго подойти к адресам ІРѵб. Однако и эту ра¬ 
боту лучше оставить для второго регулярного выражения, которую 
можно выполнить после извлечения адреса из ІІКЬ. Рецепт 8.17 пока¬ 
зывает, что проверка адресов ІРѵб выполняется весьма тривиально. 

Номер порта, если он указан, - это простое десятичное число, отделяе¬ 
мое от имени хоста двоеточием. Выражение < :[0-9]+> - все, что нам необ¬ 
ходимо. 

Если авторизация определена, за ней должен следовать либо абсолютный 
путь, либо путь вообще не указывается. Абсолютный путь начинается 
с символа слэша, за которым следует один или более сегментов, отделяе¬ 
мых друг от друга слэшами. Сегмент состоит из одной или более букв, 
цифр или знаков пунктуации. Здесь символы слэша не могут следовать 
подряд. Путь может заканчиваться символом слэша. Совпадение с та¬ 
кими путями обеспечивает выражение <(/[а-г0-9\-._"%!$&'()*+, ; = :@]+)*/?>- 

Если в ІШЬ отсутствует авторизация, путь может быть как абсолют¬ 
ным, так и относительным или отсутствовать вообще. Абсолютный путь 
начинается с символа слэша, тогда как относительный - нет. Посколь¬ 
ку на этот раз ведущий символ слэша становится необязательным, нам 
потребовалось написать более длинное регулярное выражение, совпа¬ 
дающее сразу с абсолютными и относительными путями: </?[а-г0-9\-._ 
"%!$&*()*+, ; = :@]+(/[а-20-9\-. _"%!$&'()*+, ; = :©]+)*/?>- 

Относительные адреса ЬГКЬ не определяют схему адресации, а следова¬ 
тельно, и авторизацию. В этом случае путь становится обязательной ча¬ 
стью адреса, при этом он может быть абсолютным или относительным. 
Поскольку в ІІКЬ отсутствует схема, первый сегмент относительного 




8.7. Проверка универсальных адресов ІІКІ_ 


545 


пути не может содержать символы двоеточия. В противном случае этот 
символ двоеточия интерпретировался бы как символ, отделяющий на¬ 
именование схемы. Поэтому, чтобы обеспечить совпадение с путем в от¬ 
носительном адресе ШІЬ, нам потребовались два регулярных выраже¬ 
ния. Совпадение с относительными путями обеспечивает выражение 
<[а-20-9\-._~%!$&'()*+,;=@]+(/[а-20-9\-. _"%!$&'()*+ ; = :@]+)*/?>- Оно очень по¬ 
хоже на выражение, соответствующее путям со схемой, но без автори¬ 
зации. Отличия состоят в необязательности ведущего символа слэша, 
который отсутствует, и в содержимом первого символьного класса, из 
которого исключен символ двоеточия. Совпадение с абсолютным путем 
обеспечивает выражение <(/[а-20-9\-._~%!$&’()* + , ;=:@]+)+/?>- Это то же са¬ 
мое регулярное выражение, которое использовалось для совпадения 
с путями в адресах ШИ., в которых задается схема адресации и автори¬ 
зация, за исключением того, что звездочка, повторяющая сегменты пу¬ 
ти, заменена на плюс. Относительные пути требуют наличия хотя бы 
одного сегмента. 

Часть со строкой запроса является необязательной. Если она присутст¬ 
вует, то должна начинаться со знака вопроса. Строка запроса продол¬ 
жается до первого символа решетки или до конца адреса. Поскольку 
знак решетки не попадает в число знаков пунктуации, допустимых 
в строке запроса ШІЬ, мы легко можем обеспечить сопоставление с ней 
с помощью выражения <\?[а-г0-9\-. _~%!$&'()*+, ; = :@/?]*>. Оба знака вопро¬ 
са в этом регулярном выражении являются литералами. Первый из 
них находится за пределами символьного класса и должен экраниро¬ 
ваться. Второй находится внутри символьного класса, где он всегда ин¬ 
терпретируется как литерал. 

Заключительная часть ІШЬ — это фрагмент, который также является 
необязательным. Он начинается со знака решетки и тянется до конца 
адреса ЬГКЬ. Соответствие с ним обеспечивает выражение <\#[а-і0-9\- 

Чтобы упростить доступ к различным частям ШІЬ, мы использовали 
именованные сохраняющие группы. В рецепте 2.11 описывается, как ра¬ 
ботает именованное сохранение в различных диалектах регулярных вы¬ 
ражений, рассматриваемых в этой книге. Диалекты Регі 5.10, КиЬу 1.9 
и .ЫЕТ допускают наличие в выражении нескольких групп с одинако¬ 
выми именами. Это очень удобно в данной ситуации, потому что наше 
регулярное выражение предусматривает множество способов совпаде¬ 
ния с путем в ІШЬ в зависимости от того, указывается ли схема и/или 
авторизация. Дав этим трем группам одно и то же имя, мы можем про¬ 
сто обратиться к группе с именем «раІЬ», чтобы получить путь незави¬ 
симо от того, указана ли в адресе ШІЬ схема и/или авторизация. 

Другие диалекты не поддерживают возможность именованного сохра¬ 
нения, даже при том, что многие придерживаются того же синтаксиса 
именованных сохранений. В других диалектах все сохраняющие груп¬ 
пы, совпадающие с путями, имеют разные имена. После того как будет 




546 


Глава 8. ІІКІ_, пути и адреса в Интернете 


найдено совпадение, только одна из них будет действительно хранить 
путь. Две другие не будут участвовать в сопоставлении. 

См. также 

В рецепте 3.9 описывается, как извлекать фрагменты текста, совпав¬ 
шие с сохраняющими группами в программном коде. Воспользуйтесь 
им, чтобы реализовать извлечение необходимых частей ШІЬ. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.18 опи¬ 
сывается, как добавлять комментарии. 

В рецепте 8.1 приводится простое решение, следующее более свобод¬ 
ным правилам проверки адресов ШП. в сравнении со строгими прави¬ 
лами в КГС 3986, используемым большинством браузеров. 

8.8. Извлечение схемы из адреса ІЖІ_ 

Задача 

Требуется из строки, в которой хранится ІІКЬ, извлечь схему адреса¬ 
ции. Например, необходимо извлечь текст ІтЕІр из строки Іііііір ://\л/\л/\л/. 
гедехсоокЬоок.сот. 

Решение 

Извлечение схемы из заведомо допустимого адреса ІІКІ 

~([а-2][а-20-9+\-.]*): 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуІЬоп, КиЬу 

Извлечение схемы при проверке адреса ІІКІ. 

\А 

([а-2][а-20-9+Ѵ- ]*): 

(# Авторизация и путь 

// 

([а-г0-9\-._“%!$&'()*+,;=]+@)? # Пользователь 

([а-г0-9\-._"%]+ # Имя хоста 

|\[[а-Г0-9:.]+\] # ІР-адрес версии ІРѵб 

|\[ѵ[а-Г0-9][а-20-9\-._~%! $&’ ()*+,; = : ]+\]) # ІР-адрес будущей версии ІРѵ... 

(:[0-9]+)? # Порт 

(/[а-г0-9\-._"%!$&’()*+,; = :§>]+)*/? # Путь 
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|# Путь без авторизации 

(/?[а-20-9\-._'%!$&'()*+,;=:@]+(/[а-20-9\-._'%!$&'()*+, ; = :©]+)*/?)? 

) 

# Строка запроса 

(\?[а-г0-9\-._~%!$&'()*+,;=:@/?]*)? 

# Фрагмент 

(\#[а-г0-9\-._~%!$&'()*+.;=:@/?]*)? 

\2 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, Лаѵа, РСКЕ, Регі, РуіЬоп, КиЬу 

~([а-2][а-20-9+Ѵ- ]*): (//([а-г0-9\-._*%!$&'()*+,; =]+@)?([а-г0-9\-._'%]+|Д 
\[[а-б0-9:.]+\] |\[ѵ[а-Т0-9][а-20-9\-. _'%!$&•()*+,;=:]+\])(:[0-9]+)?Д 
(/[а-20-9\-._'%!$&’()*+,;=:©]+)*/?I(/?[а-г0-9\-._“%!$&’()*+,;=:@]+и 
(/[а-г0-9\-._'%! $&'()*+,; = :@]+)*/?)?)(\?[а-г0-9\-._'%!$&’()*+,;=:@/?]*)?Д 
(#[а-г0-9\-._■%!$&•()*+.;=:@/?]*)?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лаѵа, ЛаѵаЗсгірб, РСКЕ, Регі, Рубііоп 

Обсуждение 

Извлечь схему из адреса ІІКЬ будет проще, если известно, что испытуе¬ 
мый текст является допустимым адресом ІІКЬ. Схема ІІКЬ всегда нахо¬ 
дится в самом начале адреса ІШЬ. Соблюдение этого требования в регу¬ 
лярном выражении обеспечивает символ крышки (рецепт 2.5). Схема 
должна начинаться с буквы, за которой могут следовать дополнитель¬ 
ные буквы, цифры, знаки плюс, дефисы и точки. Совпадение с ними мы 
обеспечили с помощью двух символьных классов <[а-2][а-г0-9+\-.]*> (ре¬ 
цепт 2.3). 

Схема отделяется от остальной части ІІКЬ символом двоеточия. Мы до¬ 
бавили его в регулярное выражение, чтобы гарантировать совпадение 
со схемой, только если адрес ІІКЬ действительно начинается с нее. От¬ 
носительные адреса ІІКЬ не имеют схемы. Синтаксис ІІКЬ, определяе¬ 
мый в КЕС 3986, гарантирует отсутствие символов двоеточия в относи¬ 
тельных адресах ІІКЬ, если только этим двоеточиям не предшествуют 
символы, которые не допускается использовать в схемах. Именно по 
этой причине мы исключили символ двоеточия из символьного класса, 
используемого для сопоставления с путем, в рецепте 8.7. Если приме¬ 
нить регулярные выражения из этого рецепта к действительному, но 
относительному ІІКЬ, они вообще не обнаружат совпадения. 

Поскольку регулярное выражение совпадает не только с названием схе¬ 
мы (в совпадение включается символ двоеточия), мы добавили в регу¬ 
лярное выражение сохраняющую группировку. Если регулярное выра¬ 
жение обнаружит совпадение, название схемы без двоеточия можно 
будет извлечь из первой (и единственной) сохраняющей группы. По¬ 
дробнее о сохраняющей группировке рассказывается в рецепте 2.9. 
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В рецепте 3.9 можно узнать, как извлекать текст, совпавший с сохра¬ 
няющей группировкой, в том или ином языке программирования. 

Если заранее неизвестно, является ли испытуемый текст допустимым 
адресом ІІКЬ, можно использовать упрощенную версию регулярного 
выражения из рецепта 8.7. Поскольку по условию задачи требуется из¬ 
влечь схему, можно исключить из регулярного выражения сопоставле¬ 
ние с относительными адресами ІІКЬ, в которых наименование схемы 
не указывается. Это позволило упростить регулярное выражение. 

Поскольку регулярное выражение совпадает со всем адресом ІІКЬ, мы 
добавили дополнительную сохраняющую группировку, заключив в нее 
часть регулярного выражения, совпадающую со схемой. Извлекая текст, 
совпавший с первой сохраняющей группой, можно получить схему 
ІШЬ. 

См. также 

В рецепте 3.9 описывается, как извлекать фрагменты текста, совпав¬ 
шие с сохраняющими группами в программном коде. Воспользуйтесь 
им, чтобы реализовать извлечение схемы ІІКЬ. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.18 опи¬ 
сывается, как добавлять комментарии. 

8.9. Извлечение имени пользователя из ІІКІ_ 

Задача 

Требуется извлечь имя пользователя из строки, хранящей адрес ІІКЬ. 
Например, нужно извлечь имя іап из 1"1:р://]ап@ш\л/.гедехсоокЬоок.соіп. 

Решение 

Извлечение имени пользователя 
из заведомо допустимого адреса ши. 

“[а-гО-9+Ѵ- ]+://([а-г0-9\-._~%! $&'()*+,; =]+)@ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 
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Извлечение имени пользователя при проверке адреса ІІКІ. 


\А 

[а-2][а-20-9+\--]* 7/ 

([а-20-9\-._~%!$&'()* + );-]+)@ 
([а-г0-9\-._~%]+ 

|\[[а--Г0-9:.]Л] 

|\[ѵ[а-І0-9][а-20-9\-. _“%! $&’()*+,; = : 
(:[0-9]+)? 

(/[а-20-9\-._“%!$&'()*+,;=:©]+)*/? 
(\?[а-20-9\-._~%!$&'()*+,;=:@/?]*)? 
(\#[а-20-9\-._~%!$&•()*+,;=:@/?]*)? 

V 


# Схема 

# Пользователь 

# Имя хоста 

# ІР-адрес версии ІРѵб 

# ІР-адрес будущей версии ІРѵ. .. 

# Порт 

# Путь 

# Строка запроса 

# Фрагмент 


Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуУюп, КиЬу 


~[а-2][а-20-9+\-. ]*://([а-г0-9\-._"%!$&■()*+, :=]+)@([а-20-9\-._"%]+М 

\[[а-І0-9:.]+\]|\[ѵ[а-І0-9][а-20-9\-. _”%!$&'()*+,;=:]+\])(:[0-9]+)?и 
(/[а-20-9\-._“%!$&'()*+,:=:@]+)*/?(\?[а-20-9\-._~%!$&'()*+,:=:@/?]*)?-• 
(#[а-г0-9\-._'%!$&'()*+,:=:@/?]*)?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп 


Обсуждение 

Извлечь имя пользователя из адреса ІШЬ будет проще, если известно, 
что испытуемый текст является допустимым адресом ІШЬ. Имя пользо¬ 
вателя, если оно присутствует в ІШЬ, располагается правее схемы и двух 
символов слэша, с которых в ІШЬ начинается сегмент «авторизации». 
Имя пользователя отделяется от следующего за ним имени хоста знаком 
@. Поскольку знак @ не может появляться в именах хостов, мы можем 
быть уверены, что извлекли имя пользователя из ІШЬ, если обнаружи¬ 
ли знак @ после двух символов слэша и перед следующим слэшем в ІШЬ. 
Символы слэша не могут использоваться в именах пользователей, по¬ 
этому нам не потребовалось выполнять дополнительную проверку. 

Все эти правила подразумевают, что мы очень легко можем извлечь 
имя пользователя, если заранее известно, что испытуемый текст пред¬ 
ставляет допустимый адрес ІШЬ. Мы пропускаем схему с помощью ре¬ 
гулярного выражения <[а-г0-9+\-.]+> и ://. После этого извлекаем имя 
пользователя, следующее дальше. Если было найдено совпадение со 
знаком @, можно быть уверенными, что символы перед ним составля¬ 
ют имя пользователя. Символьный класс <[а-г0-9\-._"%!$&’()*+.;=]> пере¬ 
числяет все символы, которые считаются допустимыми в именах поль¬ 
зователей. 

Это регулярное выражение будет обнаруживать совпадение, только ес¬ 
ли ІШЬ действительно содержит имя пользователя. В этом случае в сов¬ 
падение с регулярным выражением попадут обе части ІШЬ, схема и имя 
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пользователя. Поэтому мы добавили в регулярное выражение сохраняю¬ 
щую группировку. Когда регулярное выражение обнаружит совпадение, 
имя пользователя без символов-разделителей или других частей ЬГКЬ 
можно будет извлечь из первой (и единственной) сохраняющей группы. 
Подробнее о сохраняющей группировке рассказывается в рецепте 2.9. 
В рецепте 3.9 можно узнать, как извлекать текст, совпавший с сохра¬ 
няющей группировкой, в различных языках программирования. 

Если заранее неизвестно, является ли испытуемый текст допустимым 
адресом ЬГКЬ, можно использовать упрощенную версию регулярного вы¬ 
ражения из рецепта 8.7. Поскольку по условию задачи требуется извлечь 
имя пользователя, можно исключить из регулярного выражения сопо¬ 
ставление с адресами ШІЬ, в которых отсутствует авторизация. Факти¬ 
чески регулярное выражение, которое приводится в решении, совпадает 
только с адресами ЬГКЬ, которые содержат авторизацию, включающую 
имя пользователя. Требование к наличию сегмента авторизации позво¬ 
лило упростить регулярное выражение. Более того, оно получилось да¬ 
же проще, чем в рецепте 8.8. 

Поскольку это регулярное выражение совпадает со всем адресом ШІЬ, 
мы добавили дополнительную сохраняющую группировку, заключив 
в нее часть регулярного выражения, совпадающую с именем пользова¬ 
теля. Извлекая текст, совпавший с первой сохраняющей группой, мож¬ 
но получить имя пользователя ЬГКЬ. 

Если необходимо, чтобы регулярное выражение совпадало с любым до¬ 
пустимым адресом ІІКЬ, включая те, что не содержат имени пользова¬ 
теля, можно воспользоваться одним из регулярных выражений в ре¬ 
цепте 8.7. Первое регулярное выражение в рецепте 8.7 сохраняет имя 
пользователя (если оно указано) в третьей сохраняющей группе. Эта 
группа сохраняет также символ @. Если необходимо получить имя 
пользователя без символа @, можно добавить в регулярное выражение 
еще одну сохраняющую группировку. 

См. также 

В рецепте 3.9 описывается, как извлекать фрагменты текста, совпав¬ 
шие с сохраняющими группами в программном коде. Воспользуйтесь 
им, чтобы реализовать извлечение имени пользователя. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.18 опи¬ 
сывается, как добавлять комментарии. 



8.10. Извлечение имени хоста из ІІКІ. 
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8.10. Извлечение имени хоста из ШИ 

Задача 

Требуется извлечь имя хоста из строки, хранящей адрес ІШЬ. Напри¬ 
мер, имя ѵмѵу/. гедехсооквоок.сот из Іпіііір ://\ л/\л/\л/. гедехсоокЬоок.сот. 

Решение 

Извлечение имени хоста из заведомо 
допустимого адреса ши. 

\А 

[а-г][а-20-9+\-.]*:// # Схема 

([а-г0-9\-._~%!$&’()*+,;=]+@)? # Имя пользователя 

([а-г0-9\-._~%]+ # Имя хоста или ІР-адрес ІРѵ4 

|\[[а-г0-9\-._~%!$&'()*+,;=:]+\]) # ІР-адрес ІРѵ6+ 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЬу 

~[а-2][а-г0-9+\-•]*://([а-г0-9\-._"%! $&’()*+, ;=]+©)?( [а-гО-9\-._“%]+М 
\[[а-г0-9\-._■'%!$&•()*+, ; = :]+\]) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, Лѵа8сгірѣ, РСКЕ, Регі, РуЙюп, КиЬу 


Извлечение имени хоста при проверке адреса IIКЬ 


\А 

[а-г][а-г0-9+\-.]*:// 
([а-г0-9\-._■%!$&'()*+,;=]+@)? 
([а-і0-9\-._'%]+ 

|\[[а-Т0-9:.]+\] 


# Схема 

# Имя пользователя 

# Имя хоста 

# ІР-адрес ІРѵб 


|\[ ѵ[а-Т0-9] [а-г0-9\-._“%!$&’()*+,;=:]+\]) # ІР-адрес будущей версии ІРѵ. .. 

(:[0-9]+)? # Порт 

(/[а-г0-9\-._~%!$&’()*+,;=:@]+)*/? # Путь 

(\?[а-г0-9\-._"%!$&’()*+,;=:@/?]*)? # Строка запроса 

(\#[а-г0-9\-._“%!$&’()*+.;=:@/?]*)? # Фрагмент 

\2 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, Руцкой, КиЬу 


~[а-2][а-20-9+\-.]*://([а-г0-9\-._“%!$&'()*+,:=]+@)?([а-г0-9\-._“%]+1Щ 

\[ [а-ІО-9 :.]+\] |\[ѵ[а-І0-9][а-і0-9\-._~%! $&’()*+,;=:]+\])(:[0-9]+)?и 
(/[а-г0-9\-._"%!$&'()*+, ; = :@]+)*/?(\?[а-20-9\-._'%!$&'()*+. ;=:@/?]*)?^ 
(#[а-г0-9\-._“%!$&’()*+,:=:@/?]*)?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгір!;, РСКЕ, Регі, РуНіоп 
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Глава 8. ІШІ_, пути и адреса в Интернете 


Обсуждение 

Извлечь имя хоста из адреса ШІЬ будет проще, если известно, что ис¬ 
пытуемый текст является допустимым адресом ШІЬ. Мы использовали 
якорные метасимволы <\А> или Г>, чтобы привязать совпадение к нача¬ 
лу текста. Выражение < [а-г][аг0-9+\-. ]*://> пропускает схему, а выраже¬ 
ние <([а-г0-9\-. _“%!$&'()*+>;=]+@)?> пропускает необязательное имя поль¬ 
зователя. Сразу же вслед за ними следует имя хоста. 

В КЕС 3986 допускается две различные формы записи хоста. Доменные 
имена и адреса ІРѵ4 указываются без квадратных скобок, тогда как ад¬ 
реса ІРѵб и ІР-адреса возможных будущих версий указываются в квад¬ 
ратных скобках. Эти две формы записи необходимо обрабатывать от¬ 
дельно, потому что форма записи в квадратных скобках допускает боль¬ 
шее число знаков пунктуации, чем форма записи без скобок. В частно¬ 
сти, в квадратных скобках допускается использовать символ двоеточия, 
а в доменных именах и адресах ІРѵ4 - нет. Двоеточие также использует¬ 
ся для отделения имени хоста (в обеих формах записи) от номера порта. 

Выражению <[а-г0-9\-. _“%]+> соответствуют доменные имена и адреса 
ІРѵ4. Выражение <\[[а-г0-9\-._“%! $&'()*+, ; = :]+\]> обрабатывает адреса вер¬ 
сии ІРѵб и выше. Мы объединили эти два регулярных выражения 
в группу, используя конструкцию выбора (рецепт 2.8). Кроме этого, со¬ 
храняющая группа позволяет извлекать имя хоста. 

Это регулярное выражение будет обнаруживать совпадение, только ес¬ 
ли ШІЬ действительно содержит имя хоста. В этом случае в совпадение 
с регулярным выражением попадут схема, имя пользователя и имя хос¬ 
та. Когда регулярное выражение обнаружит совпадение, имя хоста без 
символов-разделителей или других частей ШІЬ можно будет извлечь из 
второй сохраняющей группы. Для адресов ІРѵб в совпадение с сохра¬ 
няющей группой будут включаться квадратные скобки. Подробнее о со¬ 
храняющей группировке рассказывается в рецепте 2.9. В рецепте 3.9 
можно узнать, как извлекать текст, совпавший с сохраняющей группи¬ 
ровкой, в различных языках программирования. 

Если заранее неизвестно, является ли испытуемый текст допустимым 
адресом ІШЬ, можно использовать упрощенную версию регулярного 
выражения из рецепта 8.7. Поскольку по условию задачи требуется из¬ 
влечь имя хоста, можно исключить из регулярного выражения сопо¬ 
ставление с адресами ТШЬ, в которых отсутствует авторизация. Это су¬ 
щественно упрощает регулярное выражение. Оно очень похоже на регу¬ 
лярное выражение, которое приводилось в рецепте 8.9. Единственное 
отличие в том, что теперь имя пользователя опять стало необязатель¬ 
ным, как и в рецепте 8.7. 

Кроме того, это регулярное выражение использует конструкцию выбо¬ 
ра для различных форм записи имени хоста, заключенную в сохраняю¬ 
щую группу. Извлекая текст, совпавший со второй сохраняющей груп¬ 
пой, можно получить имя хоста ШІЬ. 
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Если необходимо, чтобы регулярное выражение совпадало с любым до¬ 
пустимым адресом ІШЬ, включая те, что не содержат имени хоста, мож¬ 
но воспользоваться одним из регулярных выражений из рецепта 8.7. 
Первое регулярное выражение в рецепте 8.7 сохраняет имя хоста (если 
оно указано) в четвертой сохраняющей группе. 

См. также 

В рецепте 3.9 описывается, как извлекать фрагменты текста, совпав¬ 
шие с сохраняющими группами в программном коде. Воспользуйтесь 
им, чтобы реализовать извлечение адреса хоста. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.18 опи¬ 
сывается, как добавлять комментарии. 

8.11. Извлечение номера порта из ІШІ_ 

Задача 

Требуется извлечь номер порта из строки, хранящей адрес ІШЬ. Напри¬ 
мер, нужно извлечь число 80 из адреса гедехсоокЬоок.сот: 80 /. 

Решение 

Извлечение номера порта из заведомо 
допустимого адреса 11 КІ. 

\А 

[а-2][а-20-9+Ѵ- ]*:// # Схема 

([а-г0-9\-._~%!$&'()*+,;=]+@)? # Имя пользователя 

([а-г0-9\-._~%]+ # Имя хоста или адрес ІРѵ4 

|\[[а-г0-9\-._’%!$&■()*+,;=:]+\]) # Адрес ІРѵ6+ 

: (?<рог1:>[0-9]+) # Номер порта 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, Заѵа 7, РОКЕ 7, Регі 5.10, РуЙюп, КиЬу 1.9 


\А 

[а-2][а-г0-9+\-.]*:// # Схема 

([а-і0-9\-. _~%!$&'()*+.;=]+@)? # Имя пользователя 

([а-г0-9\-._"%]+ # Имя хоста или адрес ІРѵ4 

|\[[а-г0-9\-._"%!$&’()*+,;=:]+\]) # Адрес ІРѵ6+ 

: (?Р<рог1:>[0-9]+) # Номер порта 
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Глава 8.1)КІ_, пути и адреса в Интернете 


Параметры: режим свободного форматирования, нечувствительность 

к регистру символов 

Диалекты: РСКЕ, Регі 5.10, РуіЬоп 

~[а-2][а-20-9+\--]*://([а-г0-9\-.$&'()*+,;=]+@)?и 
([а-20-9\-._~%]+|\[[а-20-9\-._“%!$&'()*+.;=:1+\]):([0-9]+) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 


Извлечение номера порта при проверке адреса ІЛМ. 


\А 

[а-2][а-20-9+\-.]*:// 

([а-20-9\-._'%!$&'()*+,;=]+@)? 

([а-г0-9\-._“%]+ 

|\[[а-Г0-9:.]+\] 

|\[ѵ[а-Г0-9][а-20-9\-. _"%!$&'()*+,:=: 
:([0-9]+) 

(/[а-20-9\-._"%!$&’()*+,;=:©]+)*/? 

(\?[а-г0-9\-._“%!$&’()*+.:=:@/?]*)? 
(\#[а-20-9\-._"%! $&’()*+,; = :©/?]*)? 
\2 


# Схема 

# Имя пользователя 

# Имя хоста 

# Адрес ІРѵб 

# ІР-адрес будущей версии ІРѵ. .. 

# Порт 

# Путь 

# Строка запроса 

# Фрагмент 


Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуМюп, КиЬу 


''[а-2][а-20-9+\-- ]*:\/\/([а-^0-9\-._~%! $&'()*+,; =]+@)?и 
([а-20-9\-._~%]+|\[[а-Г0-9:. ]+\] |\[ѵ[а-Г0-9][а-20-9\-. _“%!$&’()*+,; = :I- 1 
А]):([0-9]+)(\/[а-20-9\-._~%!$&'()*+,;=:@]+)*\/?и 
(\?[а-г0-9\-._“%!$&'()*+, : = :@\/?]*)?(#[а-г0-9\-._“%!$&’()*+,: = :@\/?]*)?$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵабсгірі;, РСКЕ, Регі, Руііюп 


Обсуждение 

Извлечь номер порта из адреса ІШЬ будет проще, если известно, что ис¬ 
пытуемый текст является допустимым адресом ІШЬ. Мы использовали 
якорные метасимволы <\А> или <">, чтобы привязать совпадение к нача¬ 
лу текста. Выражение <[а-2][а-20-9А~ ]*://> пропускает схему, а выраже¬ 
ние <([а-^0-9\-._“%! $&'()*+, ;=]+@)?> пропускает необязательное имя поль¬ 
зователя. Выражение <( [а-г0-9\-._~%]+1\[[а-г0-9\-. _~%!$&’()*+,; = :]+\])> про¬ 
пускает имя хоста. 

Номер порта отделяется от имени хоста символом двоеточия, который 
мы добавили в регулярное выражение как литерал. Номер порта - это 
просто строка цифр, совпадение с которой легко обеспечить с помощью 
выражения <[0-9]+>. 

Это регулярное выражение будет обнаруживать совпадение, только ес¬ 
ли ІШЬ действительно содержит номер порта. В этом случае в совпаде- 



8.11. Извлечение номера порта из ІІКІ_ 


555 


ние с регулярным выражением попадут схема, имя пользователя, имя 
хоста и номер порта. Когда регулярное выражение обнаружит совпаде¬ 
ние, номер порта без символов-разделителей или других частей ЬГКЬ 
можно будет извлечь из третьей сохраняющей группы. 

Другие две группы обеспечивают необязательность имени пользовате¬ 
ля и объединение альтернативных форм записи имени хоста. Подроб¬ 
нее о сохраняющей группировке рассказывается в рецепте 2.9. В рецеп¬ 
те 3.9 можно узнать, как извлекать текст, совпавший с сохраняющей 
группировкой, в различных языках программирования. 

Если заранее неизвестно, что испытуемый текст является допустимым 
адресом ІІКЬ, можно использовать упрощенную версию регулярного 
выражения из рецепта 8.7. Поскольку по условию задачи требуется из¬ 
влечь номер порта, можно исключить из регулярного выражения сопо¬ 
ставление с адресами ЬГКЬ, в которых этот номер отсутствует. Это су¬ 
щественно упрощает регулярное выражение. Оно очень похоже на регу¬ 
лярное выражение, которое приводилось в рецепте 8.10. 

Единственное отличие состоит в том, что теперь номер порта уже не яв¬ 
ляется необязательным, а еще мы переместили границу сохраняющей 
группировки, соответствующей номеру порта, исключив из нее двоето¬ 
чие, отделяющее номер порта от имени хоста. Номер сохраняющей 
группы — 3. 

Если необходимо, чтобы регулярное выражение совпадало с любым до¬ 
пустимым адресом ІІКЬ, включая те, что не содержат номера порта, 
можно воспользоваться одним из регулярных выражений из рецеп¬ 
та 8.7. Первое регулярное выражение в рецепте 8.7 сохраняет номер 
порта (если он указан) в пятой сохраняющей группе. 

См. также 

В рецепте 3.9 описывается, как извлекать фрагменты текста, совпав¬ 
шие с сохраняющими группами в программном коде. Воспользуйтесь 
им, чтобы реализовать извлечение номера порта. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.18 опи¬ 
сывается, как добавлять комментарии. 
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Глава 8. ІШІ., пути и адреса в Интернете 


8.12. Извлечение пути из адреса ІЖІ_ 

Задача 

Требуется извлечь путь из строки, хранящей адрес ІШЬ. Например, 
нужно извлечь фрагмент /іпсіех.ііііті из адреса 1п1:1:р://\л/\л/\л/. гедехсоокЬоок. 
сот/іпсіех. Піті или из адреса /іпсіех. М1:т1#-Ггадтепі:. 

Решение 

Извлечь путь из адреса ІШЬ, если известно, что строка хранит допусти¬ 
мый адрес ІШЬ. Следующее регулярное выражение совпадает со всеми 
ШІЬ, даже с теми, в которых путь не указан: 

\А 

# Пропустить схему и авторизацию, если имеются 
([а-2][а-20-9+\-.]*:(//[■7?#]+)?)? 

# Путь 

([а-20-9\-._“%!$&’()*+.;=:@/]*) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЪу 

'‘([а-2][а-20-9+\-. ]*:(//[Ѵ?#]+)?)?([а-гО-9\-. _“%!$&'()*+, : = :@/]*) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, Лѵавсгірі, РСКЕ, Регі, РуІЬоп, КиЬу 

Извлечь путь из адреса ІШЬ, если известно, что строка хранит допусти¬ 
мый адрес ІШЬ. Совпадение должно обеспечиваться только с адресами 
ІШЬ, содержащими путь: 

\А 

# Пропустить схему и авторизацию, если имеются 

([а-2][а-20-9+\-.]*:(//[■7?#]+)?)? 

# Путь 

(/?[а-г0-9\-._"%!$&'()*+. :=@]+(/[а-20-9\-._"%!$&'()*+, : = :©]+)*/?!/) 

# Строка запроса, фрагмент или конец ІІРЬ 
([#?]|\ 2 ) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

~([а-г][а-г0-9+\-.]*:(//[ Ѵ?#]+)?)?(/?[а-20-9\-._”%! $&*()*+,;=@:Ы 
(/[а-г0-9\-._-%! $&•()*+,: = :©]+)*/? І/)([#?]|$) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 


Извлечь путь из адреса ІШЬ, если известно, что строка хранит допусти¬ 
мый адрес ІШЬ. Чтобы обеспечить совпадение только с адресами ІШЬ, 
содержащими путь, использовать атомарную группировку: 
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\А 

# Пропустить схему и авторизацию, если имеются 
(?>([а-2][а-20-9+\-.]*:(//[■7?#]+)?)?) 
и Путь 

([а-г0-9\-._~%!$&'()*+,;=:©/]+) 

Параметры: режим свободного форматирования, нечувствительность 

к регистру символов 

Диалекты: .ЫЕТ, ^аѵа, РСКЕ, Регі, КиЪу 

Обсуждение 

Регулярное выражение, извлекающее путь, можно существенно упро¬ 
стить, если известно, что испытуемый текст является допустимым ад¬ 
ресом ШИ.. В рецепте 8.7 предусмотрено три различных способа совпа¬ 
дения с путем в зависимости от наличия сегментов схемы и/или авто¬ 
ризации в ШП, но в регулярном выражении, извлекающем путь из 
заведомо допустимого адреса ШП, достаточно одного способа сопостав¬ 
ления с путем. 

Регулярное выражение начинается с якорного метасимвола <\А> или Г>, 
чтобы привязать совпадение к началу текста. Выражение <[а- 2 ][а- 20 - 
9+\-.]*:> перешагивает через схему, а выражение <//[Ѵ?#] + > ~ через авто¬ 
ризацию. Мы смогли использовать такое простое выражение, соответ¬ 
ствующее авторизации, потому что уже знаем, что ШИ. допустим, 
и нам не требуется извлекать имя пользователя, имя хоста или номер 
порта из авторизации. Сегмент авторизации начинается с двух симво¬ 
лов слэша и простирается до начала пути (символ слэша), строки запро¬ 
са (знак вопроса) или фрагмента (символ решетки). Инвертированный 
символьный класс обеспечивает совпадение с любыми символами, кро¬ 
ме первого символа слэша, знака вопроса и решетки (рецепт 2.3). 

Поскольку сегмент авторизации является необязательным, мы помес¬ 
тили его в группу, за которой следует квантификатор «знак вопроса»: 
<(//[ 7 ?#]+)?>* Схема также является необязательным элементом ІШЪ. 
Если схема опущена, авторизация тоже должна быть опущена. Чтобы 
обеспечить соблюдение этого правила, мы поместили части регулярно¬ 
го выражения, совпадающие со схемой и необязательным сегментом 
авторизации, в другую группу, которую также сделали необязательной 
с помощью вопросительного знака. 

Нам заранее известно, что испытуемый текст является допустимым ад¬ 
ресом ТШЬ, поэтому совпадение с сегментом пути легко можно обеспе¬ 
чить с помощью единственного символьного класса <[а-г0-9\-._”%!$&'() 
*+,; = :@/]*>, который включает символ слэша. Нам не требуется прове¬ 
рять наличие двойных символов слэша, не допустимых в пути. 

Мы целенаправленно использовали звездочку, а не плюс в качестве 
квантификатора символьного класса для сегмента пути. Может пока¬ 
заться странным, что совпадение с путем сделано необязательным в ре¬ 
гулярном выражении, единственная цель которого извлечь путь из 
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ІІКЪ. Фактически совпадение с сегментом пути должно быть необяза¬ 
тельным из-за упрощений, сделанных нами для перескакивания через 
сегменты схемы и авторизации. 

В универсальном регулярном выражении в рецепте 8.7 имеется три 
разных способа сопоставления с сегментом пути в зависимости от нали¬ 
чия в ШИ. схемы и/или авторизации. Это гарантирует, что схема по 
ошибке не будет воспринята как путь. 

Но сейчас мы стараемся упростить выражение, используя единствен¬ 
ный символьный класс для сегмента пути. Рассмотрим ТЛИ. Іпіііір ://\л/\л/\л/. 
гедехсоокЬоок.сот, где имеются сегменты схемы и авторизации, но от¬ 
сутствует путь. Первая часть нашего регулярного выражения благопо¬ 
лучно совпадет со схемой и авторизацией. Механизм регулярных выра¬ 
жений попытается сопоставить символьный класс для пути, но в тексте 
больше не осталось символов. Если путь объявлен необязательным 
(с помощью квантификатора «звездочка»), механизм регулярных выра¬ 
жений будет вполне удовлетворен отсутствием символов для пути. Он 
достигнет конца регулярного выражения и объявит, что общее совпаде¬ 
ние было найдено. 

Но если бы совпадение с символьным классом пути было обязатель¬ 
ным, механизм регулярных выражений начал бы выполнять возвраты. 
(Те, кто не знаком с механизмом возвратов, могут обратиться к рецеп¬ 
ту 2.13.) Он вспомнит, что части регулярного выражения, совпадающие 
с сегментами схемы и авторизации, объявлены необязательными, по¬ 
этому механизм скажет: попробуем еще раз, но на этот раз исключим 
возможность совпадения с <(//[7?#]+)?>. Тогда подвыражение <[а-і0-9\- 
._"%!$&’()*+,; = :@/]+> совпадет с фрагментом /Амѵѵ. гедехсоокЬоок.сот , ин¬ 
терпретировав его как путь, что совершенно не то, что нам требуется. 
Если бы для сопоставления с сегментом пути использовалось более точ¬ 
ное регулярное выражение, не допускающее появления двойных сим¬ 
волов слэша, механизм регулярных выражений смог бы выполнить 
возврат еще раз и попробовать вариант с отсутствующей схемой. Тогда, 
при использовании точного выражения для пути, фрагмент ІтЕІр адреса 
был бы воспринят как путь. Для предотвращения этого нам пришлось 
бы добавить дополнительную проверку наличия строки запроса и фраг¬ 
мента за сегментом пути. Если реализовать все это, мы получим регу¬ 
лярные выражения, обозначенные в разделе «Решение» как «совпа¬ 
дающие только с адресами ШІЬ, действительно содержащими путь». 
Они получились немного сложнее, только чтобы обеспечить отсутствие 
совпадения с адресом ІІКЬ без пути. 

Если используемый диалект регулярных выражений поддерживает 
атомарную группировку, с ее помощью можно получить более простое 
решение. Атомарную группировку (рецепт 2.14) поддерживают все диа¬ 
лекты, рассматриваемые в книге, кроме ЗаѵаЗсгірІ и РуіЬоп. Атомар¬ 
ная группировка сообщает механизму регулярных выражений, что не 
следует выполнять возврат. Если подвыражения, совпадающие с сег- 
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ментами схемы и авторизации, заключить в атомарную группу, меха¬ 
низм регулярных выражений будет вынужден сохранить совпадения 
со схемой и авторизацией, как только они будут обнаружены, даже ес¬ 
ли в результате этого не останется символов для символьного класса, 
обеспечивающего совпадение с путем. Это решение такое же эффектив¬ 
ное, как и предыдущее - с необязательным сегментом пути. 

Путь можно будет извлечь из третьей сохраняющей группы при ис¬ 
пользовании любого регулярного выражения из этого рецепта. Если ис¬ 
пользовать первые два выражения, в которых совпадение с путем явля¬ 
ется необязательным, в третьей сохраняющей группе может возвра¬ 
щаться пустая строка или значение пиіі в Заѵа8сгір1. 

Если заранее неизвестно, что испытуемый текст является допустимым 
адресом ІІКЬ, можно воспользоваться регулярным выражением из ре¬ 
цепта 8.7. При работе с платформой .ЫЕТ можно применить выраже¬ 
ние, работающее только с диалектом .ЫЕТ и содержащее три группы 
с именем «раИі» в трех подвыражениях, способных совпасть с сегмен¬ 
том пути в ТЛИ.. В других диалектах, поддерживающих именованные 
сохранения, путь будет сохраняться в одной из трех групп: «ЬозІраПі», 
«зсЬетераИі» или «геірайі». Так как только одна из трех групп действи¬ 
тельно будет содержать что-нибудь, для извлечения пути можно вос¬ 
пользоваться простой хитростью, выполнив операцию конкатенации 
строк, возвращаемых тремя группами. Две из них будут возвращать 
пустые строки, поэтому фактически никакой конкатенации выпол¬ 
няться не будет. 

Если используемый диалект не поддерживает именованное сохранение, 
можно использовать первое регулярное выражение из рецепта 8.7. Оно 
сохраняет путь в группе 6, 7 или 8. В этом случае также можно исполь¬ 
зовать трюк с конкатенацией фрагментов, сохраняемых этими тремя 
группами, потому что две из них будут возвращать пустые строки. Од¬ 
нако в ^ѵаЗсгір! этот прием работать не будет. Для групп, не участво¬ 
вавших в сопоставлении, в ^ѵа8сгір! возвращается значение ипсІе'ГіпесІ. 

В рецепте 3.9 приводится немало информации об извлечении текста, 
совпавшего с нумерованными или именованными сохраняющими груп¬ 
пами в разных языках программирования. 

См. также 

Рецепт 3.9, в котором описывается, как извлекать фрагменты текста, 
совпавшие с сохраняющими группами в программном коде. Восполь¬ 
зуйтесь им, чтобы реализовать извлечение пути. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
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группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.18 опи¬ 
сывается, как добавлять комментарии. 

8.13. Извлечение строки запроса из ІЖІ_ 

Задача 

Требуется извлечь строку запроса из строки, хранящей адрес ЦКЬ. На¬ 
пример, нужно извлечь фрагмент рагат=ѵа!ие из ГіИр ://\л/\л/\л/. гедехсоокЬо- 
ок.сот?рагат=ѵа1ие или из /іпсіех.Н1:п1?рагат=ѵа1ие. 

Решение 

~Г?#]+\?(Г#]+) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Извлечение строки запроса из ІШЬ - достаточно тривиальная задача, 
если заведомо известно, что испытуемый текст является допустимым 
адресом ІШЬ. Запрос отделяется от предшествующей части ІШЬ зна¬ 
ком вопроса, то есть первым знаком вопроса, встретившимся в ІШЬ. 
Благодаря этому с помощью регулярного выражения <~[~?#]+\?> можно 
сразу же перейти к первому вопросительному знаку. Знак вопроса в ре¬ 
гулярных выражениях интерпретируется как метасимвол только за 
пределами символьных классов, но не внутри, поэтому нам потребова¬ 
лось экранировать литерал знака вопроса за пределами символьного 
класса. Первый символ Г> - это якорь (рецепт 2.5), тогда как второй 
символ Г> инвертирует символьный класс (рецепт 2.3). 

Знак вопроса может появляться в адресах ІШЬ как часть (необязатель¬ 
ного) фрагмента, следующего за строкой запроса. Поэтому, чтобы убе¬ 
диться, что это первый знак вопроса в ІШЬ и он не является частью 
фрагмента в адресе ИНЬ, в котором отсутствует строка запроса, вместо 
простого подвыражения <\?> пришлось использовать <~[~?#]+\?>. 

Строка запроса простирается до начала фрагмента или до конца строки 
ІШЬ, если в ней отсутствует сегмент фрагмента. Фрагмент отделяется 
от остальной части ІІКЬ знаком решетки. Так как знак решетки не до¬ 
пускается нигде, кроме фрагмента, выражения <[~#]+> будет вполне до¬ 
статочно для совпадения с запросом. Инвертированный символьный 
класс совпадает с любыми символами до первого встретившегося знака 
решетки или до конца испытуемого текста, если в нем нет ни одного 
знака решетки. 

Это регулярное выражение будет совпадать только с адресами ІШЬ, ко¬ 
торые действительно содержат строку запроса. Когда будет обнаружи- 
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ваться совпадение с ЬГКЬ, в его состав будет входить все от начала ІШЬ, 
поэтому мы поместили часть <[~#]+> регулярного выражения, совпадаю¬ 
щую со строкой запроса, в сохраняющую группу. Когда регулярное вы¬ 
ражение обнаружит совпадение, строку запроса без символов-раздели¬ 
телей или других частей ІІКЬ можно будет извлечь из первой (и единст¬ 
венной) сохраняющей группы. Подробнее о сохраняющей группировке 
рассказывается в рецепте 2.9. В рецепте 3.9 можно узнать, как извле¬ 
кать текст, совпавший с сохраняющей группировкой, в различных 
языках программирования. 

Если заранее неизвестно, является ли испытуемый текст допустимым 
адресом ТШЬ, можно использовать одно из регулярных выражений из 
рецепта 8.7. Первое регулярное выражение в рецепте 8.7 сохраняет стро¬ 
ку запроса, если она присутствует в строке ІШЬ, в сохраняющей группе 
под номером 12. 

См. также 

Рецепт 3.9, в котором описывается, как извлекать фрагменты текста, 
совпавшие с сохраняющими группами в программном коде. Восполь¬ 
зуйтесь им, чтобы реализовать извлечение строки запроса. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.18 опи¬ 
сывается, как добавлять комментарии. 

8.14. Извлечение фрагмента из ІІКЬ 

Задача 

Требуется извлечь сегмент определенного фрагмента из строки, храня¬ 
щей адрес ТШЬ. Например, нужно извлечь фрагмент Іод из ІпЫір ://\л/\л/\л/. 
гедехсоокЬоок.сот#1:ор или из /іпсіех. 1лЬт1#1:ор. 

Решение 

#(.+) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЬу 

Обсуждение 

Извлечение такого фрагмента из ІШЬ - достаточно тривиальная задача, 
если заведомо известно, что испытуемый текст является допустимым 
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адресом ІГОЬ. Фрагмент отделяется от предшествующей части ТШЪ 
знаком решетки. Фрагмент - это единственная часть ШИ., где допуска¬ 
ется присутствие знака решетки, и это всегда последняя часть ШИ.. По¬ 
этому мы легко можем извлечь фрагмент, отыскав первый знак решет¬ 
ки и выбрав все символы до конца строки. С этой задачей прекрасно 
справляется выражение <#.+>. Не забудьте выключить режим свободно¬ 
го форматирования, в противном случае потребуется экранировать ли¬ 
терал знака решетки символом обратного слэша. 

Это регулярное выражение будет совпадать только с адресами ШП, ко¬ 
торые действительно содержат фрагмент. В совпадении будет присутст¬ 
вовать только фрагмент, но оно включает в себя знак решетки, отде¬ 
ляющий фрагмент от остальной части ШП. Чтобы получить возмож¬ 
ность извлекать только сам фрагмент без отделяющего символа #, в ре¬ 
шение была добавлена сохраняющая группа. 

Если заранее неизвестно, является ли испытуемый текст допустимым 
адресом ІІКЬ, можно использовать одно из регулярных выражений из 
рецепта 8.7. Первое регулярное выражение в рецепте 8.7 сохраняет 
фрагмент, если он присутствует в строке ШП, в сохраняющей группе 
под номером 13. 

См. также 

Рецепт 3.9, в котором описывается, как извлекать фрагменты текста, 
совпавшие с сохраняющими группами в программном коде. Восполь¬ 
зуйтесь им, чтобы реализовать извлечение фрагмента. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.8 описывается применение оператора выбора. В рецепте 2.9 расска¬ 
зывается о группировке. В рецепте 2.11 обсуждаются именованные 
группировки. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.18 опи¬ 
сывается, как добавлять комментарии. 

8.15. Проверка доменных имен 

Задача 

Необходимо проверить, выглядит ли испытуемый текст как полное 
квалифицированное доменное имя, или отыскать такие доменные име¬ 
на в текстовом документе. 

Решение 

Проверить, выглядит ли строка как допустимое доменное имя: 


~([а-20-9]+(-[а-20-9]+)*\. )+[а-і]{2, }$ 
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Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуЪЬоп 

\А([а-20-9]+(-[а-20-9]+)*\.)+[а-г]{2,}\2 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, РСКЕ, Регі, РуЙюп, КиЬу 

Отыскать допустимые доменные имена в текстовом документе: 

\Ь([а-г0-9]+(-[а-20-9]+)*\.)+[а-2]{2,}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ^ѵаЗсгір!;, РСКЕ, Регі, РуІЬоп, КиЬу 

Проверить, не превышает ли длина каждой части доменного имени 
63 символов: 

\Ь((?=[а-г0-9-]{1,63}\.)[а-г0-9]+(-[а-гО-9]+)*\.)+[а-г]{2,63}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірі;, РСКЕ, Регі, РуіЬоп, КиЬу 

Разрешить использование интернационализированных доменных имен 
в кодировке рипусосіе: 

\Ь((хп--)?[а-20-9]+(-[а-20-9]+)*Ѵ )+[а-г]{2,}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Проверить, не превышает ли длина каждой части доменного имени 
63 символов, и разрешить использование интернационализированных 
доменных имен в кодировке рипусосіе: 

\Ь((?=[а-20-9-]{1,63}\. )(хп-)?[а-20-9]+(-[а-20-9]+)*Ѵ )+[а-г]{2,63}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуіЬоп, КиЬу 

Обсуждение 

Доменное имя имеет вид сіотаіп.іісі, или зиЬсІотаіп.сіотаіп.ііісі, или может 
включать любое число дополнительных поддоменов. Домен верхнего 
уровня (Іор-Іеѵеі сіотаіп, 1:1сІ) состоит из двух или более букв. Это самая 
простая часть регулярного выражения: <[а-г]{2,}>. 

Имена доменов и любых поддоменов состоят из букв, цифр и дефисов. 
Дефисы не могут следовать парами и не могут быть первыми симво¬ 
лами в именах доменов. Совпадение с ними обеспечивается регуляр¬ 
ным выражением <[а-г0-9]+(-[а-20-9]+)*>. Это регулярное выражение 
допускает любое число букв и цифр, за которыми может следовать лю¬ 
бое число групп символов, состоящих из дефисов, за которыми следуют 
другие последовательности букв и цифр. Необходимо помнить, что 
внутри символьных классов дефис интерпретируется как метасимвол 
(рецепт 2.3), но за их пределами он воспринимается как обычный сим- 
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вол, поэтому нам не потребовалось экранировать дефисы в этом регу¬ 
лярном выражении. 

Имена доменов и поддоменов отделяются друг от друга символом точки, 
совпадение с которой обеспечивает фрагмент <\.> в регулярном выраже¬ 
нии. Так как в ИКЬ помимо имени домена может присутствовать любое 
количество имен поддоменов, мы поместили подвыражение, совпадаю¬ 
щее с именем домена и с литералом точки в повторяемую группу: <([а-гО- 
9]+(-[а-г0-9]+)*\.)+>. Поскольку имена поддоменов следуют тому же син¬ 
таксису, что и имена доменов, эта группа обрабатывает и те, и другие 
имена. 

Если необходимо проверить, является ли заданная строка допустимым 
именем домена, достаточно добавить якорные метасимволы в начало 
и в конец регулярного выражения, чтобы обеспечить его привязку к на¬ 
чалу и концу текста. Сделать это можно с помощью Г> и <$> во всех диа¬ 
лектах, за исключением КиЪу, или с помощью <\А> и <\2> во всех диалек¬ 
тах, за исключением ^ѵаЗсгірІ. Подробнее об этих якорных метасим¬ 
волах рассказывается в рецепте 2.5. 

Если потребуется отыскать доменные имена в текстовом документе, 
можно добавить границы слова <\Ь> (рецепт 2.6). 

Первый набор регулярных выражений не проверяет, превышает ли дли¬ 
на каждой части доменного имени 63 символа. Реализовать такую про¬ 
верку не так просто, потому что наше регулярное выражение, совпада¬ 
ющее с каждой частью доменного имени, <[а-20-9]+(-[а-г0-9]+)*>, содер¬ 
жит в себе три квантификатора и нет никакой возможности сообщить 
механизму регулярных выражений, что в сумме они не должны произ¬ 
водить более 63 повторений. 

Можно было бы использовать выражение <[-а-20-9]{1,63}>, чтобы ограни¬ 
чить длину каждой части доменного имени 63 символами, или <\Ь([-а- 
20-9]{1,63}\.)+[а-2]{2 | 63}> - для всего доменного имени. Но тогда мы ли¬ 
шились бы возможности исключать доменные имена с символами де¬ 
фиса в недопустимых местах. 

Однако можно задействовать опережающую проверку, чтобы дважды 
проверить совпадение с одним и тем же текстом. Те, кто не знаком с опе¬ 
режающей проверкой, могут сначала ознакомиться с рецептом 2.16. 
Мы использовали то же самое регулярное выражение <[а-г0-9]+(-[а- 
20-9]+) *\.>, совпадающее с доменным именем, в котором дефисы нахо¬ 
дятся в допустимых местах, и добавили в опережающую проверку вы¬ 
ражение <[-а-г0-9]{1,63}\. >, чтобы убедиться, что длина имени не превы¬ 
шает 63 символа. В результате получилось выражение <(?= Г-а-20-9]{1,63} 
\.)[а-20-9]+(-[а-20-9]+)*\.>. 

Опережающая проверка <(?=[-а-20-9]{1,63}\.)> сначала убеждается, что до 
ближайшего символа точки имя содержит от 1 до 63 букв, цифр и дефи¬ 
сов. Точка в опережающей проверке имеет большое значение. Без нее до¬ 
менные имена длиннее 63 символов по-прежнему могли бы удовлетво- 
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рять ограничению в 63 символа, накладываемому опережающей про¬ 
веркой. Только добавив литерал точки внутрь опережающей проверки, 
мы можем обеспечить соблюдение ограничения длины 63 символами. 

Опережающая проверка не поглощает символы совпавшего с ней тек¬ 
ста. Поэтому если опережающая проверка преуспевает, выражение 
<[а-20-9]+(-[а-20-9]+)*\.> применяется к тексту, уже совпавшему с опере¬ 
жающей проверкой. Мы уже убедились, что эта часть имени не превыша¬ 
ет 63 символов в длину, и теперь осталось лишь убедиться, что она пред¬ 
ставляет собой допустимую комбинацию дефисов и других символов. 

Интернационализированные доменные имена (Іпіегпаііопаіігесі Бота- 
іп Ыатев, ШЫ) теоретически могут содержать почти любые символы. 
Фактически же список допустимых символов зависит от регистратора, 
управляющего доменом верхнего уровня. Например, в домене ез допус¬ 
кается использовать доменные имена, содержащие испанские символы. 

На практике интернационализированные доменные имена часто коди¬ 
руются с помощью схемы, называемой рипусосіе. Несмотря на всю 
сложность алгоритма рипусосіе, здесь важно упомянуть, что в результа¬ 
те его применения получаются доменные имена, состоящие из букв, 
цифр и дефисов и отвечающие требованиям, которые мы уже удовле¬ 
творили в нашем регулярном выражении для доменных имен. Единст¬ 
венное отличие в том, что доменные имена, воспроизводимые алгорит¬ 
мом рипусосіе, начинаются с префикса хп— . Чтобы добавить поддержку 
таких доменов в наше регулярное выражение, нам достаточно добавить 
<(хп— )?> в группу, совпадающую с частями доменного имени. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.6 говорится о границах слов. В рецепте 2.9 рассказывается 
о группировке. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.16 рас¬ 
сказывается об опережающих и ретроспективных проверках. 

8.16. Сопоставление с адресами ІРѵ4 

Задача 

Необходимо проверить, является ли некоторая строка допустимым ад¬ 
ресом ІРѵ4 в форме записи 255.255.255.255. Дополнительно необходимо 
преобразовать этот адрес в 32-битное целое число. 
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Решение 

Регулярное выражение 

Простое регулярное выражение, выполняющее проверку ІР-адресов: 

~(?:[0-9]{1,3}\. ){3}[0-9]{1,3}$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, Лѵа8сгірІ, РОКЕ, Регі, РуЙюп, КиЬу 

Точное регулярное выражение, выполняющее проверку ІР-адресов и до¬ 
пускающее наличие ведущих нулей: 

~(? : (? : 25[0-5] | 2[0-4][0-9] | [01 ]?[0-9][0-9]?)\. ){3}и 
(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгір!;, РСКЕ, Регі, РуНюп, КиЬу 

Точное регулярное выражение, выполняющее проверку ІР-адресов и не 
допускающее наличие ведущих нулей: 

"(?:(?:25[0-5]| 2 [0-4] [0-9] 11 [0-9] [0-9] |[1-9]?[0-9])\. ){2>}^ 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])$ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірѣ, РСКЕ, Регі, РуЙюп, КиЬу 

Простое регулярное выражение, извлекающее ІР-адреса из текстового 
документа: 

\Ь(?:[0-9]{1,3}\.){3}[0-9]{1,3}\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЬу 

Точное регулярное выражение, извлекающее ІР-адреса из текстового 
документа и допускающее наличие ведущих нулей: 

\Ь(7:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\. ){ЗЫ 
(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуЙюп, КиЬу 

Точное регулярное выражение, извлекающее ІР-адреса из текстового 
документа и не допускающее наличие ведущих нулей: 

\Ь(?:(?:25[0-5]|2[0-4][0-9]11[0-9][0-9]|[1-9]?[0-9])\.){3}—1 
(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\Ь 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуНюп, КиЬу 

Простое регулярное выражение, сохраняющее четыре части ІР-адреса: 

~([0-9]{1,3})\. ([0-9] {1,3} )\. ([0-9] {1,3})\.([0-9]{1,3})$ 
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Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵа8сгірі, РСКЕ, Регі, РуЙюп, КиЬу 

Точное регулярное выражение, сохраняющее четыре части ІР-адреса 
и допускающее наличие ведущих нулей: 

''(25[0-5] |2[0-4][0-9]|[01]?[0-9][0-9]?)\.Щ 
(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]7)\.Щ 
(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.Щ 
(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$ 

Параметры: нет 

Диалекты: .МЕТ, Лѵа, Лѵа8сгір1, РСКЕ, Регі, РуПюп, КиЬу 

Точное регулярное выражение, сохраняющее четыре части ІР-адреса 
и не допускающее наличие ведущих нулей: 

~(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.Щ 
(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.и 
(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.Д 
(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])$ 

Параметры: нет 

Диалекты: .МЕТ, Лѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЬу 


Регі 

11= ($зиЬ] есі: =' т/~([0-9]{1,3} )\. ([0-9]{1.3})\. ([0-9]{1.3})\. ([0-9]{1,3>)/) 

{ 

$ір = $1 « 24 | $2 « 16 | $3 « 8 | $4; 

} 

Обсуждение 

ІР-адреса в версии 4 обычно записываются в формате 255.255.255.255, 
где каждая часть должна быть представлена числом от 0 до 255. Сопо¬ 
ставление с такими ІР-адресами реализуется очень просто. 

В решении представлены четыре регулярных выражения. Два из них 
обозначены как «простые», а два других - как «точные». 

В простых регулярных выражениях для сопоставления с каждым из 
четырех блоков цифр ІР-адреса используется подвыражение <[0-9]{1,3}>. 
Оно фактически совпадает с числами в диапазоне от 0 до 999, а не от О 
до 255. Простые регулярные выражения более эффективны, когда зара¬ 
нее известно, что строка содержит только допустимые ІР-адреса, и тре¬ 
буется только отделить ІР-адреса от остального текста. 

В точных регулярных выражениях для сопоставления с каждым из че¬ 
тырех блоков цифр ІР-адреса используется подвыражение <25[0-5]|2[0-4] 
[0-9]|[01]?[0-9][0-9]?>. Это регулярное выражение точно соответствует 
числу в диапазоне от 0 до 255, содержащему необязательный ведущий 
ноль для чисел в диапазоне от 10 до 99 и два необязательных ведущих 
нуля для чисел в диапазоне от 0 до 9. Выражение <25[0-5]> совпадает 
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с числами от 250 до 255, выражение <2[0-4][0-9]> совпадает с числами от 
200 до 249, а выражение <[01]?[0-9][0-9]?> совпадает с числами от 0 до 
199, включая необязательные ведущие нули. Подробнее о сопоставле¬ 
нии с числовыми диапазонами рассказывается в рецепте 6.7. 

Хотя многие приложения принимают ІР-адреса с ведущими нулями, 
строго говоря, ведущие нули недопустимы в адресах ІРѵ4. Поэтому 
точные версии были улучшены, и в их основу положено выражение 
<25[0-5] 12[0-4][0-9] 11 [0-9][0-9] | [1-9]?[0-9]>, совпадающее с числами от 0 до 
255 без ведущих нулей. Сопоставление с числами от 200 до 255 не изме¬ 
нилось и выполняется точно так же. Теперь вместо выражения <[01]?[0-9] 
[0-9]?> для сопоставления с числами от 0 до 99 используется выражение 
<1[0-9][0-9]|[1-9]?[0-9]> с двумя альтернативами. Альтернатива <1 [0-9] 
[0-9]> соответствует диапазону от 100 до 199, а альтернатива <[1-9]?[0-9]> 
соответствует диапазону от 0 до 99. Объявив первую цифру необяза¬ 
тельной, нам удалось одной альтернативой охватить однозначные и дву¬ 
значные числа. 

Если необходимо проверить, является ли вся строка допустимым ІР-ад- 
ресом, следует использовать одно из регулярных выражений, начинаю¬ 
щихся символом крышки и заканчивающихся знаком доллара. Эти 
якорные метасимволы, совпадающие с началом и концом строки, опи¬ 
сываются в рецепте 2.5. Если необходимо выполнить поиск ІР-адресов 
в текстовом документе, следует использовать регулярные выражения, 
начинающиеся и заканчивающиеся метасимволом границы слова <\Ь> 
(рецепт 2.6). 

Первые четыре регулярных выражения имеют вид <(7:питЬег\.){3}питЬег>. 
Первые три числа в ІР-адресе совпадают с несохраняющей группой (ре¬ 
цепт 2.9), которая повторяется три раза (рецепт 2.12). Группе соответст¬ 
вует число и литерал точки, которая трижды встречается в ІР-адресе. 
Последней части регулярного выражения соответствует заключитель¬ 
ное число ІР-адреса. Использование несохраняющей группы и трехкрат¬ 
ное ее повторение делает регулярное выражение короче и эффективнее. 

Чтобы преобразовать текстовое представление ІР-адреса в целое число, 
необходимо сохранить все четыре числа отдельно. Это реализовано 
в двух последних регулярных выражениях. Вместо одной группы, по¬ 
вторяющейся трижды, в них используются четыре сохраняющих груп¬ 
пы, по одной для каждого числа. Это единственный способ сохранить 
по отдельности все четыре числа, присутствующие в ІР-адресе. 

После сохранения чисел объединить их в 32-битное целое число не со¬ 
ставляет труда. Текст, совпавший с четырьмя сохраняющими группа¬ 
ми регулярного выражения, в языке Регі хранится в специальных пере¬ 
менных $1, $2, $3 и $4. Порядок извлечения содержимого сохраняющих 
групп в других языках программирования описывается в рецепте 3.9. 
В языке Регі строковые переменные, соответствующие сохраняющим 
группам, автоматически преобразуются в числа при применении к ним 
оператора битового сдвига («). В других языках программирования 
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может потребоваться вызвать метод 51:г іпд .Ііоіпііеде г() или похожий на 
него, прежде чем можно будет выполнить сдвиг чисел и объединить их. 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.6 говорится о границах слов. В рецепте 2.8 описывается при¬ 
менение оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.12 объясняется, как организовать сопоставление с повто¬ 
ряющимися комбинациями символов. 

8.17. Сопоставление с адресами ІРѵб 

Задача 

Необходимо проверить, является ли некоторая строка допустимым ад¬ 
ресом ІРѵб в стандартной, компактной и/или смешанной форме записи. 

Решение 

Стандартная форма записи 

Обеспечить совпадение с адресом ІРѵб в стандартной форме записи, ко¬ 
гда адрес состоит из восьми 16-битовых слов в шестнадцатеричной но¬ 
тации, разделенных двоеточиями (например, 1762:0:0:0:0:ВОЗ: 1:АР18). Ве¬ 
дущие нули являются необязательными. 

Проверить, является ли весь испытуемый текст адресом ІРѵб в стан¬ 
дартной форме записи: 

~(?:[А-Р0-9]{1,4}:) {7}[А-РО-9]{1,4}$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .КЕТ, Заѵа, ЛѵаВсгірІ, РСКЕ, Регі, РуІЬоп 

\А(?: [А-Р0-9]{1 ,4}: ){7}[А-Р0-9]{1 ,4}\7 

Параметры: нечувствительность к регистру символов 
Диалекты: .КЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЪу 

Отыскать в текстовом документе адреса ІРѵб в стандартной форме за¬ 
писи: 

(?<![:.\м])(?:[А-Р0-9]{1,4}:){7}[А-РО-9]{1,4}(?![:. \\л/]) 

Параметры: нечувствительность к регистру символов 
Диалекты: .КЕТ, РСКЕ, Регі, РуНюп, КиЬу 1.9 


Диалекты ЗаѵаВсгірІ и КиЪу 1.8 не поддерживают ретроспективную про¬ 
верку. Нам пришлось удалить проверку в начале регулярного выраже- 
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ния, которая препятствует совпадению с адресами ІРѵб внутри длин¬ 
ных последовательностей шестнадцатеричных цифр и двоеточий. Час¬ 
тично проверка выполняется с помощью границы слова: 

\Ь(?:[А-РО-9]{1,4}:){7}[А-Р0-9]{1,4}\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: ^ЕТ, 4аѵа, ЛѵаЗсгірІ, РСКЕ, Регі, Руііюп, КиЪу 

Смешанная форма записи 

Обеспечить совпадение с адресом ІРѵб в смешанной форме записи, ко¬ 
гда адрес состоит из шести 16-битных слов в шестнадцатеричной нота¬ 
ции, за которыми следуют четыре байта в десятичной нотации. Слова 
отделяются двоеточиями, а байты - точками. Слова и байты отделяются 
двоеточием. Ведущие нули в шестнадцатеричных словах и в десятич¬ 
ных байтах являются необязательными. Данная форма записи исполь¬ 
зуется в случае смешивания адресов формата ІРѵ4 и ІРѵб и когда адре¬ 
са ІРѵ4 дополняются до формата ІРѵб. Пример адреса ІРѵб в смешан¬ 
ной форме записи: 1762:0:0:0:0:ВОЗ: 127.32.67.15. 

Проверить, является ли весь испытуемый текст адресом ІРѵб в сме¬ 
шанной форме записи: 

~(?:[А-РО-9]{1,4}:){6}(?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]^ 

\. ){3}(?:25[0-5]|2[0-4][0-9]11[0-9][0-9]|[1-9]?[0-9])$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, 4аѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЪоп, КиЪу 

Отыскать в текстовом документе адреса ІРѵб в смешанной форме записи: 

(?<![: Дѵ/])(? : [А-РО-9]{1,4}: ){6М 

(?:(?: 25[ 0-5 ] 12[ 0-4] [0-9] 11 [0-9] [0-9] |[1-9]?[0-9])\.){ЗЫ 
(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])(?![:Дм]) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуіЬоп, КиЪу 1.9 

Диалекты ^ѵаЗсгір! и КиЪу 1.8 не поддерживают ретроспективную про¬ 
верку. Нам пришлось удалить проверку в начале регулярного выраже¬ 
ния, которая препятствует совпадению с адресами ІРѵб внутри длин¬ 
ных последовательностей шестнадцатеричных цифр и двоеточий. Час¬ 
тично проверка выполняется с помощью границы слова: 

\Ь(?: [А-РО-9]{1,4}:){6} (?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])и 
V ){3}(?:25[0-5]12[0-4][0-9]11[0-9][0-9]|[1-9]?[0-9]) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуШоп, КиЪу 

Стандартная или смешанная форма записи 

Обеспечить совпадение с адресом ІРѵб в стандартной или смешанной 
форме записи. 
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Проверить, является ли весь испытуемый текст адресом ІРѵб в стан¬ 
дартной или смешанной форме записи: 

\А # Начало текста 

(?:[А-РО-9]{1,4}:){6} # 6 слов 

(?:[А-РО-9]{1,4}:[А-Р0-9]{1,4} # 2 слова 

| (?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]7[0-9])\.){3} # или 4 байта 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]) 

)\І # Конец текста 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

"(?: [А-РО-9]{1,4}:) {6} (? : [А-РО-9] {1,4}: [А-РО-9]{1,4} |и 
(? : (? : 25[0-5] 12[0-4][0-9] 11[0-9][0-9] | [1-9]?[0-9])\. ){ЗЫ 
(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]))$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуЙюп 

Отыскать в текстовом документе адреса ІРѵб в стандартной или сме¬ 
шанной форме записи: 


(?<![:• \И) 

(?:[А-РО-9]{1,4}:){6} 

(?:[А-РО-9]{1,4}:[А-РО-9]{1,4} 


# Привязка к адресу 

# 6 слов 

# 2 слова 


| (?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3} # или 4 байта 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]) 

)(?![:.\м]) # Привязка к адресу 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^аѵа, РСКЕ, Регі, РуНюп, КиЬу 1.9 


Диалекты ^ѵаЗсгірІ и КиЬу 1.8 не поддерживают ретроспективную про¬ 
верку. Нам пришлось удалить проверку в начале регулярного выраже¬ 
ния, которая препятствует совпадению с адресами ІРѵб внутри длин¬ 
ных последовательностей шестнадцатеричных цифр и двоеточий. Час¬ 
тично проверка выполняется с помощью границы слова: 

\Ь # Граница слова 

(?:[А-РО-9]{1,4}:){6} # 6 слов 

(?:[А-РО-9]{1,4}:[А-РО-9]{1,4} # 2 слова 

| (?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3} # или 4 байта 
(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]) 

)\Ь # Граница слова 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуіЬоп, КиЬу 

\Ь(?:[А-Р0-9]{1,4}:){6}(?:[А-РО-9]{1,4}:[А-РО-9]{1,4}|и 
(?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3}—* 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]))\Ь 
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Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуѣЬоп, КиЬу 

Компактная форма записи 

Обеспечить совпадение с адресом ІРѵб в компактной форме записи. 
Компактная форма записи идентична стандартной, за исключением то¬ 
го, что в компактной форме одна из последовательностей из одного или 
более слов, содержащих ноль, может быть опущена, но при этом двоето¬ 
чия до и после опущенных нулей остаются. Опознать адрес в компакт¬ 
ной форме записи можно по двум двоеточиям, следующим подряд. Опу¬ 
щена может быть только одна последовательность нулей, в противном 
случае будет невозможно определить, как много слов было опущено 
в каждой последовательности. Если опущенная последовательность ну¬ 
лей находится в начале или в конце ІР-адреса, он будет начинаться или 
оканчиваться двумя двоеточиями. Если в ІР-адресе все числа равны ну¬ 
лю, такой адрес в компактной форме будет содержать всего два двоето¬ 
чия без каких либо цифр. 

Например, 1762 :: ВОЗ : 1 : АР18 - это адрес 1762 :0:0:0:0: ВОЗ : 1: АР18 в компактной 
форме записи. Регулярные выражения в этом разделе будут совпадать 
как с компактной, так и со стандартной формой записи адреса ІРѵб. 
Проверить, является ли весь испытуемый текст адресом ІРѵб в стан¬ 
дартной или компактной форме записи: 

\А(?: 

# Стандартная 

(?:[А-РО-9]{1,4}:){7}[А-Р0-9]{1,4} 

# Компактная, не более 7 двоеточий 
|(?=(?:[А-РО-9]{0,4}:){0,7}[А-РО-9]{0,4} 

V) # и конец текста 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){1,7}|:)((:[0-9А-Р]{1,4}){1,7}|:) 

# Компактная с 8 двоеточиями 

|(?:[А-РО-9]{1,4}:){7}:|:(:[А-РО-9]{1,4}){7} 

)\2 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЬу 

~(?: (?: [А-РО-9]{1,4}:) {7} [А-РО-9]{1,4} | (?=(?: [А-РО-9]{0,4}:) {0,7}^-1 
[А-РО-9]{0,4}$)(([0-9А-Р]{1,4}:){1,7}|:)((:[0-9А-Р]{1,4}){1,7}| 

|(?:[А-РО-9]{1,4}:){7}:|:(:[А-РО-9]{1,4}){7})$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуЙюп 

Отыскать в текстовом документе адреса ІРѵб в стандартной или ком¬ 
пактной форме записи: 

(?<! [: Д\л/])(?: 

# Стандартная 
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(?: [А-Р0-9]{1 ,4}:){7}[А-РО-9]{1,4} 

# Компактная, не более 7 двоеточий 
!(?=(?;[А-РО-9]{0,4}:){0,7}[А-РО-9]{0,4} 

(?![:. \ѵѵ] )) # и привязка 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){1,7}|:)((:[0-9А-Р]{1,4}){1,7}|:) 

# Компактная с 8 двоеточиями 

|(?:[А-РО-9]{1,4}:){7}:|:(:[А-РО-9]{1,4}){7} 

)(?![:.\*]) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .МЕТ, ^ѵа, РСКЕ, Регі, Руііюп, КиЬу 1.9 

Диалекты ЛѵаЗсгірІ и КиЬу 1.8 не поддерживают ретроспективную про¬ 
верку, поэтому нам пришлось удалить проверку в начале регулярного 
выражения, которая препятствует совпадению с адресами ІРѵб внутри 
длинных последовательностей шестнадцатеричных цифр и двоеточий. 
Мы не можем использовать границу слова, потому что адрес может на¬ 
чинаться с символа двоеточия, который не является символом слова: 

(?: 

# Стандартная 

(?:[А-Р0-9]{1,4}:){7}[А-Р0-9]{1,4} 

# Компактная, не более 7 двоеточий 

I(?=(?:[А-РО-9]{0,4}:){0,7}[А-РО-9]{0, 4} 

(?![:.\м])) # и привязка 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){1,7}|:)((:[0-9А-Р]{1,4}){1,7}|:) 

# Компактная с 8 двоеточиями 

|(?:[А-РО-9]{1,4}:){7}:|:[А-РО-9]{1,4}){7} 

)(?![: Ли]) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .МЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

(?:(?: [А-РО-9]{1,4}:) {7}[А-РО-9]{1,4} | (?=(?: [А-Р0-9]{0, 4}: ){0, 7}и 
[А-РО-9] {0,4} (?![:. \м])) (([0-9А-Р] {1,4}:){1,7}| :)((: [0-9А-Р] {1,4}) {1,7} | :)Д 
|(7: [А-РО-9] {1,4}:) {7}: | : (: [А-РО-9 ] {1,4}){7})(?![:.\\л/]) 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Смешанная компактная форма записи 

Обеспечить совпадение с адресом ІРѵб в смешанной компактной форме 
записи. Компактная смешанная форма записи идентична смешанной, 
за исключением того, что в компактной форме записи одна из последова¬ 
тельностей из одного или более слов, содержащих ноль, может быть опу¬ 
щена, при этом двоеточия до и после опущенных нулей оставлены. Че¬ 
тыре десятичных байта должны присутствовать всегда, даже если они 
равны нулю. Опознать адрес в компактной смешанной форме записи 
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можно по двум двоеточиям, следующим подряд в первой части адреса, 
и по трем точкам во второй части. Опущена может быть только одна по¬ 
следовательность нулей, в противном случае будет невозможно опреде¬ 
лить, как много слов было опущено в каждой последовательности. Если 
опущенная последовательность нулей находится в начале ІР-адреса, он 
будет начинаться двумя двоеточиями, а не цифрой. 

Например, 1762: : ВОЗ: 127.32.67.15 - это компактная смешанная форма за¬ 
писи адреса 1762:0:0:0:0:ВОЗ: 127.32.67.15. Регулярные выражения в этом 
разделе будут совпадать с адресами ІРѵб в смешанной форме записи, 
как в компактной, так и в некомпактной. 

Проверить, является ли весь испытуемый текст адресом ІРѵб в ком¬ 
пактной или некомпактной смешанной форме записи: 

\А 

(?: 

# Некомпактная 

(?:[А-РО-9]{1,4}:){6} 

# Компактная, число двоеточий не более 6 
!(?=(?:[А-РО-9]{0, 4}:){0, 6} 

(?:[0-9]{1,3}\.){3}[0-9]{1,3} # и 4 байта 
\2) # и привязка 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){0,5}|:)((:[0-9А-Р]{1,4}){1,5}:|:) 

# Компактная с 7 двоеточиями и 5 числами 
| : : (?:[А-РО-9]{1,4}:){5} 

) 

# 255.255.255. 

(?:(?: 25[0-5]12[0-4][0-9]11[0-9][0-9]|[1-9]?[0-9])\.){3} 

# 255 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуѣЬоп, КиЬу 

"(?:(?:[А-РО-9]{1,4}:){6}|(?=(?:[А-РО-9]{0,4}:){0,6}(?:[0-9]{1,3}\.)и 
{3}[0-9]{1,3}$)(([0-9А-Р]{1,4}:){0, 5}|:)((:[0-9А-Р]{1,4}){1,5}:|:) и 
| ::(?:[А-РО-9]{1,4}:){5})(?:(?:25[0-5]12[0-4][0-9]11[0-9][0-9]М 
[1-9]?[0-9])\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуНюп 

Отыскать в текстовом документе адреса ІРѵб в смешанной компактной 
или некомпактной форме записи: 

(?<![:>]) 

(?: 

# Некомпактная 

(?:[А-РО-9]{1,4}:){6} 

# Компактная, число двоеточий не более 6 
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!(?=(?:[А-РО-9]{0,4}:){0,6} 

(?:[0-9]{1,3}\.){3}[0-9]{1,3} # и 4 байта 
(?![:.\\л/])) # и привязка 

Л и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){0,5}|:)((:[0-9А-Р]{1,4}){1,5}:|:) 

# Компактная с 7 двоеточиями и 5 числами 
|::(?:[А-РО-9]{1,4}:){5} 

) 

# 255.255.255. 

(?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3} 

# 255 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]) 

(?'.[:■ \И) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 1.9 

Диалекты ^ѵабсгірі и КиЬу 1.8 не поддерживают ретроспективную 
проверку, поэтому нам пришлось удалить проверку в начале регулярно¬ 
го выражения, которая препятствует совпадению с адресами ІРѵб внут¬ 
ри длинных последовательностей шестнадцатеричных цифр и двоето¬ 
чий. Мы не можем использовать границу слова, потому что адрес мо¬ 
жет начинаться с символа двоеточия, который не является символом 
слова: 

(?: 

# Некомпактная 

(?:[А-РО-9]{1,4}:){6} 

# Компактная, не более 6 двоеточий 
|(?=(?:[А-РО-9]{0,4}:){0,6} 

(?:[0-9]{1,3}\.){3}[0-9]{1,3} # и 4 байта 
(?! [: Дм])) # и привязка 

Л и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){0,5}|:)((:[0-9А-Р]{1,4}){1.5}:|:) 

# Компактная с 7 двоеточиями и 5 числами 
|::(?:[А-РО-9]{1,4}:){5} 

) 

# 255.255.255. 

(?:(?:25[0-5]12[0-4][0-9]11[0-9][0-9]|[1-9]?[0-9])\. ){3} 

# 255 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]) 

(?![:.\м]) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуіЬоп, КиЬу 

(?:(?:[А-РО-9]{1,4}:){6}|(?=(?:[А-РО-9]{0,4}:){0,6}(?: [0-9] {1,3}\. ){3} и 
[0-9]{1,3}(?! [:. \ѵѵ/]))( ([0-9А-Р]{1,4}: ){0, 5} | :)((: [0-9А-Р]{1,4} ){1,5}: | :)и 
| : :(?: [А-РО-9]{1,4} :){5})(?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?и 
[0-9 ])\. ){3}(?:25[0-5] 12[ 0-4 ] [ 0-9 ] 11[ 0-9] [0-9] |[1-9]?[0-9])(?! [: - \>л/ ]) 
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Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, Лѵавсгірі;, РСКЕ, Регі, РуМюп, КиЬу 

Стандартная, смешанная или компактная форма записи 

Обеспечить совпадение с адресом ІРѵб в любой из форм записи, описан¬ 
ных выше: стандартной, смешанной и компактной. 

Проверить, является ли весь испытуемый текст адресом ІРѵб: 

\А(?: 

# Смешанная 
(?: 

# Некомпактная 

(?:[А-РО-9]{1,4}:){6} 

# Компактная, не более 6 двоеточий 
|( ? =( ? ;[А-РО-9]{0,4}:){0, 6} 

(?:[0-9]{1,3}\.){3}[0-9]{1,3} # и 4 байта 
V) # и привязка 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){0,5}|:)((:[0-9А-Р]{1,4}){1,5}:|:) 

# Компактная с 7 двоеточиями и 5 числами 
| ::(?:[А-РО-9]{1,4}:){5} 

) 

# 255.255.255. 

(?: (?: 25[0-5]12[0-4][0-9]11[0-9][0-9]|[1-9]?[0-9])\. ){3} 

# 255 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]) 

|# Стандартная 

(?:[А-Р0-9]{1,4}:){7}[А-РО-9]{1.4} 

|# Компактная, не более 7 двоеточий 
(?=(?:[А-РО-9]{0,4}:){0,7}[А-РО-9]{0,4} 

\2) # и привязка 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){1,7}|:)((:[0-9А-Р]{1,4}){1,7}|:) 

# Компактная с 8 двоеточиями 

|(7:[А-РО-9]{1,4}:){7}:|:(:[А-РО-9]{1,4}){7} 

)\2 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЪу 

~(?:(?:(?: [А-РО-9]{1,4}: ){6} | (?=(?: [А-РО-9]{0,4}:){0, 6}(? :[0-9]{1,3}и 
V ) {3}[0-9]{1,3}$)(([0-9А-Р]{1,4}:){0,5}|:)((:[0-9А-Р]{1,4}){1,5}:|:)и 
| [А-РО-9] {1,4}:) {5})(?:(? :25[0-5]|2[0-4][0-9]|1[0-9][0-9]М 

[1-9]?[0-9])\. ){3}(7:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])М 
(?: [А-РО-9]{1,4}:){7}[А-РО-9]{1,4} | (?=(?: [А-Р0-9]{0, 4}: ){0,7}и 
[А-РО-9]{0,4}$)(([0-9А-Р]{1,4}:){1,7}|:)((:[0-9А-Р]{1,4}){1,7}|:)|Д 
(?:[А-Р0-9]{1,4}:){7}:|:(:[А-РО-9]{1,4}){7})$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгір!;, РСКЕ, Регі, РуПюп 
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Отыскать в текстовом документе адреса ІРѵб в стандартной, смешан¬ 
ной или компактной форме записи: 

(?<![:•\м])(?: 

# Смешанная 
(?: 

# Некомпактная 

(?:[А-Р0-9]{1,4}:){6} 

# Компактная, не более 6 двоеточий 
|(?=(?;[А-Р0-9]{0,4}:){0 в 6} 

(?:[0-9]{1,3}\.){3}[0-9]{1,3} # и 4 байта 
(?![:.\\л/])) # и привязка 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){0,5}|:)((:[0-9А-Р]{1,4}){1,5}:|:) 

# Компактная с 7 двоеточиями и 5 числами 
|::(?:[А-Р0-9]{1,4}:){5} 

) 

# 255.255.255. 

(?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3} 

# 255 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9]) 

|# Стандартная 

(?:[А-РО-9]{1,4}:){7}[А-РО-9]{1,4} 

|# Компактная, не более 7 двоеточий 
(?=(?;[А-РО-9]{0,4}:){0,7}[А-РО-9]{0,4} 

(?! [: .\\а/])) # и привязка 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){1,7}|:)((:[0-9А-Р]{1,4}){1,7}|:) 

# Компактная с 8 двоеточиями 

|(7:[А-РО-9]{1,4}:){7}:|:(:[А-РО-9]{1,4}){7} 

)(?![:.\и]) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 1.9 

Диалекты ^ѵа8сгірі и КиЬу 1.8 не поддерживают ретроспективную про¬ 
верку, поэтому нам пришлось удалить проверку в начале регулярного 
выражения, которая препятствует совпадению с адресами ІРѵб внутри 
длинных последовательностей шестнадцатеричных цифр и двоеточий. 
Мы не можем использовать границу слова, потому что адрес может на¬ 
чинаться с символа двоеточия, который не является символом слова: 

(?: 

# Смешанная 
(?: 

# Некомпактная 

(7:[А-РО-9]{1,4}:){6} 

# Компактная, не более 6 двоеточий 
!(?=(?:[А-РО-9]{0,4}:){0, 6} 

(7:[0-9]{1,3}\.){3}[0-9]{1,3} # и 4 байта 
(7! [: Дм])) # и привязка 
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О и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){0,5}|:)((:[0-9А-Р]{1,4}){1,5}:|:) 

# Компактная с 7 двоеточиями и 5 числами 
| ::(?:[А-РО-9]{1,4}:){5} 

) 

# 255.255.255. 

(?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3} 

# 255 

(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]I[1-9]?[0-9]) 

|# Стандартная 

(?:[А-Р0-9]{1,4}:){7}[А-РО-9]{1,4} 

|# Компактная, не более 7 двоеточий 
(?=(?:[А-РО-9]{0,4}:){0,7}[А-РО-9]{0,4} 

(?! [: Дм])) # и привязка 

# и не более 1 пары двоеточий 

(([0-9А-Р]{1,4}:){1,7}|:)((:[0-9А-Р]{1,4}){1,7}|:) 

# Компактная с 8 двоеточиями 

I(?:[А-РО-9]{1,4}:){7}:|:[А-РО-9]{1,4}){7} 

)(?![:.\и]) 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, <Іаѵа, РСКЕ, Регі, РуѣЬоп, КиЬу 

(?:(?:(?:[А-РО-9]{1,4}:){6}|(?=(?:[А-РО-9]{0,4}:){0,6}(?:[0-9]{1,3}\.){3}Д 
[0-9]{1,3}(?![:.\м]))(([0-9А-Р]{1,4}:){0,5}|:)((:[0-9А-Р]{1,4}){1,5}:|:)Д 
|:[А-Р0-9]{1,4}:){5})(?:(?:25[0-5]|2[0-4][0-9]|1[0-9][0-9]|Д 
[1-9]?[0-9])\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)|Д 
(?:[А-Р0-9]{1,4>:){7}[А-РО-9]{1,4}|(?=(?:[А-РО-9]<0,4}:){0,7}Д 
[А-Р0-9]{0,4}(?! [:.>]))( ([0-9А-Р]{1,4} :){1,7} | :)((:[0-9А-Р]{1,4}){1,7}Д 
I:)I(?:[А-РО-9]{1,4}:){7>:|:(:[А-РО-9]{1,4}){7})(?![:.\м]) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, <Іаѵа, ЛѵаЗсгірІ;, РСКЕ, Регі, РуГЪоп, КиЬу 

Обсуждение 

Из-за наличия нескольких форм записи сопоставление с адресами ІРѵб 
реализовать не так просто, как сопоставление с адресами ІРѵ4. Выбор 
допустимых форм записи оказывает большое влияние на сложность ре¬ 
гулярного выражения. Обычно используются две формы записи: стан¬ 
дартная и смешанная. Если вы решите считать допустимой только одну 
из них, то получите три набора регулярных выражений. 

И стандартная, и смешанная нотации имеют компактную форму запи¬ 
си, в которой опускаются нулевые значения. Поддержка компактной 
формы записи дает еще три набора регулярных выражений. 

Для проверки, является ли заданная строка допустимым адресом ІРѵб, 
и для поиска ІР-адресов в текстовом документе потребуются немного от¬ 
личающиеся регулярные выражения. При проверке допустимости ІР- 
адреса мы использовали якорные метасимволы, описываемые в рецеп¬ 
те 2.5. Диалект ^ѵаЗсгірі; использует якорные метасимволы <~> и <$>, 
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тогда как диалект КиЪу использует якорные метасимволы <\А> и <\7>. 
Все остальные диалекты поддерживают оба набора якорных метасим¬ 
волов. Диалект КиЬу также поддерживает метасимволы Г> и <$>, но до¬ 
пускает их совпадение с символами разрыва строки, присутствующи¬ 
ми в тексте. При использовании диалекта КиЪу символ крышки и знак 
доллара должны применяться, только если испытуемый текст не содер¬ 
жит разрывов строк. 

Для поиска адресов ІРѵб в текстовом документе мы использовали нега¬ 
тивную ретроспективную проверку <(?<![: .\м])> и негативную опережаю¬ 
щую проверку <(?![:.\м])>, чтобы убедиться в отсутствии символа слова 
(буква, цифра или символ подчеркивания), двоеточия или точки перед 
адресом и после него. Это гарантирует, что совпадение не будет обнару¬ 
жено в длинной последовательности цифр и двоеточий. Порядок рабо¬ 
ты ретроспективной и опережающей проверок описывается в рецеп¬ 
те 2.16. Если проверка ближайших символов недоступна, то для про¬ 
верки отсутствия символа слова перед адресом и после него можно ис¬ 
пользовать границы слова, но только если первый и последний символы 
адреса являются (шестнадцатеричной) цифрой. В компактной форме 
записи адреса могут начинаться и заканчиваться символом двоеточия. 
В этом случае, чтобы получить совпадение с границей слова перед двое¬ 
точием или после него, потребовалось бы наличие соседней буквы или 
цифры, что совсем не то, что нам требуется. Полное обсуждение границ 
слова приводится в рецепте 2.6. 

Стандартная форма записи 

Стандартная форма записи адресов ІРѵб достаточно просто поддается 
обработке с помощью регулярного выражения. В этом случае необходи¬ 
мо обеспечить совпадение с восемью словами в шестнадцатеричной но¬ 
тации, разделенных двоеточиями. Выражение <[А-Р0-9]{1,4}> совпадает 
с последовательностью от 1 до 4 шестнадцатеричных символов, кото¬ 
рые составляют 16-битное слово с необязательными ведущими нулями. 
В символьном классе (рецепт 2.3) перечислены только символы верхне¬ 
го регистра. Совпадение с символами нижнего регистра обеспечивается 
за счет режима нечувствительности к регистру символов. Порядок уста¬ 
новки режимов в различных языках программирования описывается 
в рецепте 3.4. 

Несохраняющая группа <(?:[А-Р0-9]{1,4}:){7}> совпадает с шестнадцате¬ 
ричным словом, за которым следует символ двоеточия. Квантификатор 
повторяет группу семь раз. Первое двоеточие в этом регулярном выраже¬ 
нии является частью синтаксиса определения несохраняющей группы, 
как описывается в рецепте 2.9, а второй - это литерал двоеточия. Символ 
двоеточия интерпретируется в регулярных выражениях как метасимвол 
только в некоторых ситуациях, когда он является частью лексемы регу¬ 
лярного выражения. Поэтому нет необходимости экранировать литерал 
двоеточия символом обратного слэша. Мы могли бы экранировать его, 
но это только сделало бы регулярное выражение менее удобочитаемым. 
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Смешанная форма записи 

Регулярное выражение для сопоставления с адресами ІРѵб в смешан¬ 
ной форме записи состоит из двух частей. Подвыражение <(?: [А-РО-9] 
{1,4}:){6}> совпадает с шестью шестнадцатеричными словами, за каж¬ 
дым из которых следует символ двоеточия; точно такое же подвыраже¬ 
ние используется для сопоставления с последовательностью из семи 
шестнадцатеричных слов в стандартной форме записи. 

Теперь вместо еще двух шестнадцатеричных слов в конце адреса при¬ 
сутствует полный адрес ІРѵ4. Для сопоставления с ним мы использова¬ 
ли «точное» регулярное выражение из рецепта 8.16, допускающее нали¬ 
чие ведущих нулей. 

Стандартная или смешанная форма записи 

Чтобы обеспечить совпадение и со стандартной, и со смешанной форма¬ 
ми записи, требуется более длинное регулярное выражение. Эти формы 
записи отличаются только представлением последних 32 битов в адресе 
ІРѵб. В стандартной форме записи используются два 16-битных слова, 
тогда как в смешанной - 4 десятичных байта, как в адресе ІРѵ4. 

Первая часть регулярного выражения совпадает с шестью шестнадцате¬ 
ричными словами, как и в регулярном выражении, поддерживающем 
только смешанную форму записи. Вторая часть регулярного выраже¬ 
ния теперь представлена несохраняющей группой с двумя альтернати¬ 
вами представления последних 32 бит. Как описывается в рецепте 2.8, 
оператор выбора (вертикальная черта) имеет самый низкий приоритет 
среди всех операторов регулярных выражений. Поэтому пришлось ис¬ 
пользовать несохраняющую группировку, чтобы исключить из выбора 
шесть слов. 

Первая альтернатива, слева от вертикальной черты, совпадает с двумя 
шестнадцатеричными словами и символом двоеточия между ними. 
Вторая альтернатива совпадает с адресом ІРѵ4. 

Компактная форма записи 

Когда необходимо обеспечить совпадение с компактной формой записи, 
дело осложняется еще больше. Причина в том, что компактная форма 
записи позволяет опускать переменное число нулей. Так, 1:0:0:0:0:6:0:0, 
1::6:0:0 и 1:0:0:0:0:6:: - это три разных способа записи одного и того же 
адреса ІРѵб. Адрес может содержать до восьми слов, но может и не со¬ 
держать ни одного. Если в адресе присутствует менее восьми слов, в нем 
должна иметься одна последовательность из двух символов двоеточия, 
представляющая опущенные нулевые значения. 

Переменное число повторений легко реализовать в регулярных выра¬ 
жениях. Если в адресе ІРѵб имеется пара двоеточий, следующих друг 
за другом, то в адресе может присутствовать не более семи слов перед 
и после двойного двоеточия. Это легко записать следующим образом: 
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([0-9А-Р]{1,4}:){1,7} 


# от 1 до 7 слов слева 

# или пара двоеточий в начале 


(:[0-9А-Р]{1,4}){1,7} 


# от 1 до 7 слов слева 

# или пара двоеточий в конце 


Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, »Іаѵа, РСКЕ, Регі, Руііюп, КиЪу 


* 








Это регулярное выражение, как и следующие ниже в этом разделе, 
также будет работать и в диалекте ^ѵаЗсгірі, если убрать из него 
комментарии и лишние пробельные символы. Диалект ^ѵаЗсгірі 
поддерживает все функциональные возможности, задействованные 
в этих регулярных выражениях, за исключением режима свободно¬ 
го форматирования, который мы используем здесь, чтобы упро¬ 
стить понимание регулярных выражений. Или можно использовать 
библиотеку ХКе^Ехр, которая наряду с другими дополнительными 
особенностями поддерживает режим свободного форматирования 
регулярных выражений в ^ѵаЗсгірі. 


Это регулярное выражение совпадает со всеми адресами ІРѵб в ком¬ 
пактной форме записи, но оно не будет совпадать с адресами в стандарт¬ 
ной, некомпактной форме. 

Это очень простое регулярное выражение. Первая его часть совпадает 
с последовательностью от 1 до 7 слов, за которой следует символ двоето¬ 
чия, или с двоеточием для адресов, в которых нет ни одного слова левее 
двойного двоеточия. Вторая часть совпадает с последовательностью от 
1 до 7 слов, которой предшествует символ двоеточия, или с двоеточием 
для адресов, в которых нет ни одного слова правее двойного двоеточия. 
Все вместе обеспечивает допустимость совпадения с самим двоеточием, 
с двоеточием и последовательностью от 1 до 7 слов только слева, с двое¬ 
точием и последовательностью от 1 до 7 слов только справа и с двоето¬ 
чием и последовательностью от 1 до 7 слов слева и справа. 

Эта последняя часть доставляет определенные неприятности. Регуляр¬ 
ное выражение допускает совпадение с последовательностью от 1 до 
7 слов как слева, так и справа, как собственно и должно быть, но оно не 
позволяет указать, что суммарное количество слов слева и справа не 
должно превышать 7. В адресе ІРѵб должно быть 8 слов. Двойное двое¬ 
точие свидетельствует, что было опущено по крайней мере одно слово, 
поэтому общее число слов не должно превышать 7. 

Регулярные выражения не производят математических вычислений. 
Они могут ограничить появление некоторого фрагмента от 1 до 7 раз. 
Но они не в состоянии ограничить суммарное появление двух фрагмен- 
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тов, распределив эти 7 раз между двумя фрагментами в какой-нибудь 
пропорции. 

Чтобы лучше понять эту проблему, рассмотрим простую аналогию. До¬ 
пустим, что необходимо обеспечить совпадение с чем-то, что записыва¬ 
ется в формате аааахЬЬЬ. Строка должна иметь длину от 1 до 8 символов 
и содержать от 0 до 7 символов а, точно один символ х и от 0 до 7 симво¬ 
лов Ь. 

Решить эту проблему с помощью регулярных выражений можно двумя 
способами. Один из них заключается в том, чтобы описать все возмож¬ 
ные альтернативы. Этот способ используется в следующем разделе, где 
обсуждается сопоставление с компактной смешанной формой записи. 
Это может привести к созданию весьма длинного регулярного выраже¬ 
ния, но его легко понять. 

\А(?:а{7}х 
| а{6}хЬ? 

I а{5}хЬ{0,2} 

I а{4}хЬ{0,3} 

I а{3}хЬ{0,4} 

I а{2}хЬ{0,5} 

| ахЬ{0,6} 

I хЬ{0,7} 

)Ѵ 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

В этом регулярном выражении для каждого возможного числа симво¬ 
лов а предусмотрена своя альтернатива. Каждая альтернатива описы¬ 
вает допустимое количество символов Ь, после того как было найдено 
совпадение с заданным числом символов а и символом х. 

Другое решение состоит в том, чтобы использовать опережающую про¬ 
верку. Этот метод используется в регулярном выражении в разделе «Ре¬ 
шение», совпадающем с адресом ІРѵб в компактной форме записи. Те, 
кто не знаком с опережающей проверкой, могут сначала ознакомиться 
с рецептом 2.16. Опережающая проверка обеспечивает возможность со¬ 
поставления с одним и тем же фрагментом текста дважды с проверкой 
соблюдения разных условий. 

\А 

(?=[аЬх]{1,8}\2) 
а{0,7}хЬ{0,7} 

V 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуіЬоп, КиЪу 

Якорный метасимвол <\А> в начале регулярного выражения привязыва¬ 
ет его к началу испытуемого текста. Далее следует позитивная опере¬ 
жающая проверка. Она проверяет, имеется ли совпадение с последова- 
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тельностью от 1 до 8 букв <а>, <Ь> и/или <х>, и находится ли это совпаде¬ 
ние в конце текста. Метасимвол <\2> внутри опережающей проверки 
имеет крайне важное значение. Чтобы регулярное выражение могло ог¬ 
раничить длину строки восемью символами, опережающая проверка 
должна убедиться в отсутствии дополнительных символов после сов¬ 
павших. 

В другой ситуации вместо <\А> и < Ѵ> можно было бы использовать другие 
символы-ограничители. Если необходимо было бы выполнить поиск 
последовательности аааахЬЬЬ и ее разновидностей «только как целых 
слов», можно было бы использовать границы слов. Но в любом случае, 
чтобы ограничить длину совпадения, необходимо использовать какой- 
то ограничитель, и этот ограничитель, совпадающий с концом строки, 
необходимо поместить и в опережающую проверку, и в конец регуляр¬ 
ного выражения. Если этого не сделать, регулярное выражение будет 
совпадать с частью более длинной строки. 

Когда опережающая проверка удовлетворит свои требования, она вер¬ 
нет обратно совпавшие с ней символы. То есть, когда механизм регуляр¬ 
ных выражений перейдет к подвыражению <а{0,7}>, он окажется в нача¬ 
ле испытуемого текста. Тот факт, что опережающая проверка не погло¬ 
щает текст, совпавший с ней, является главным ее отличием от несохра¬ 
няющей группы и позволяет применять два шаблона к одному и тому 
же фрагменту текста. 

Несмотря на то что подвыражение <а{0,7}хЬ{0,7}> само по себе могло бы 
совпасть с последовательностью длиной до 15 символов, тем не менее 
в данном случае оно может совпасть только с 8-ю, потому что опере¬ 
жающая проверка уже гарантирует наличие всего 8 символов. Все, что 
остается на долю подвыражения <а{0,7}хЬ{0,7}>, - это проверка правиль¬ 
ного порядка следования символов. При этом подвыражение <а*хіэ*> мог¬ 
ло бы обеспечить тот же эффект, что и подвыражение <а{0,7}хЬ{0,7}>. 

Второй метасимвол <\7> в конце регулярного выражения тоже имеет 
важное значение. Если в опережающей проверке необходимо проверить 
отсутствие лишних символов, то во второй проверке необходимо гаран¬ 
тировать верный порядок следования символов. Это дает уверенность, 
что регулярное выражение не совпадет с чем-нибудь вроде ахЬа, когда 
длина текста находится в диапазоне от 1 до 8 символов и удовлетворяет 
требованиям опережающей проверки. 

Компактная смешанная форма записи 

Смешанную форму записи, так же как и стандартную, можно сжать. 
Несмотря на то что четыре байта в конце должны быть указаны всегда, 
даже когда они равны нулю, количество шестнадцатеричных слов пе¬ 
ред ними может быть переменным. Если все шестнадцатеричные слова 
равны нулю, адрес ІРѵб может в конечном итоге выглядеть, как адрес 
ІРѵ4, которому предшествуют два двоеточия. 
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При создании регулярного выражения, совпадающего с адресами в ком¬ 
пактной смешанной форме записи, приходится решать те же проблемы, 
что и в случае с компактной стандартной формой записи. Все они были 
описаны в предыдущем разделе. 

Главное отличие между регулярными выражениями для сопоставле¬ 
ния с компактной смешанной и с компактной (стандартной) формами 
записи заключается в том, что при сопоставлении с адресами в ком¬ 
пактной смешанной нотации необходимо проверять наличие адреса 
ІРѵ4 после шести шестнадцатеричных слов. Эта проверка выполняется 
в конце регулярного выражения с помощью подвыражения из рецеп¬ 
та 8.16, обнаруживающего точное совпадение с адресами ІРѵ4 в неком¬ 
пактной смешанной форме записи. 

Проверка совпадения с адресом ІРѵ4 в конце выражения необходима, но 
точно так же она необходима и внутри опережающей проверки, чтобы 
убедиться, что в адресе ІРѵб присутствует не более шести двоеточий 
или шести шестнадцатеричных слов. Так как точное сопоставление уже 
выполняется в конце регулярного выражения, в опережающей провер¬ 
ке вполне достаточно простой проверки совпадения с адресом ІРѵ4. Точ¬ 
ная проверка адреса ІРѵ4 в опережающей проверке не требуется, так 
как это делает основное регулярное выражение. Но она должна обеспе¬ 
чивать совпадение с частью ІРѵ4, чтобы якорный символ, совпадаю¬ 
щий с концом текста внутри опережающей проверки, мог выполнить 
свою работу. 

Стандартная, смешанная или компактная форма записи 

Заключительный набор регулярных выражений объединяет в себе все 
вышесказанное. Они совпадают с адресами ІРѵб в любой форме записи: 
стандартной или смешанной, компактной или нет. 

Регулярные выражения в этом наборе составлены из выражений для 
компактной смешанной и компактной (стандартной) форм записи с при¬ 
менением конструкции выбора. В них, в свою очередь, также использу¬ 
ются конструкции выбора для сопоставления с компактной и неком¬ 
пактной формами записи адресов ІРѵб. 

В результате получилось регулярное выражение с тремя конструкциями 
выбора на верхнем уровне, первая из которых в свою очередь содержит 
два варианта. Первая конструкция соответствует адресам ІРѵб в сме¬ 
шанной форме записи, как компактной, так и некомпактной. Вторая 
конструкция соответствует адресам ІРѵб в стандартной форме записи. 
Третья конструкция соответствует адресам в компактной (стандарт¬ 
ной) форме записи. 

Мы создали три конструкции выбора верхнего уровня вместо двух со 
своими собственными конструкциями выбора, потому что нет никаких 
причин группировать в конструкцию выбора стандартную и компакт¬ 
ную формы записи. В случае смешанной формы записи необходимость 
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объединения компактной и некомпактной форм записи обусловлена 
возможностью сэкономить на проверке части адреса ІРѵ4. 

Фактически мы объединили выражение: 

" (бмо гсіз | сотр геззесібмо гсіз )ір4$ 
и выражение: 

~(8ѵ\/огсі 5 I сотр геззес!8мо гсіз )$ 

в выражение: 

~ ((6\л/о гсіз | сотр геззесібмо гсіз ) ір4 18\л/о гсіз | сотр геззес!8\л/о гсіз ) $ 

вместо: 

~( (6\л/о гсіз | сотр геззесібѵу/огсіз)ір4 1 (8\л/о гсіз | сотргеззесІ8\ѵогРз) )$ 

См. также 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.6 говорится о границах слов. В рецепте 2.8 описывается 
применение оператора выбора. В рецепте 2.9 рассказывается о группи¬ 
ровке. В рецепте 2.12 объясняется, как организовать сопоставление 
с повторяющимися комбинациями символов. В рецепте 2.16 рассказы¬ 
вается об опережающих и ретроспективных проверках. В рецепте 2.18 
описывается, как добавлять комментарии. 

8.18. Проверка путей в ѴѴіпсіоѵѵб 

Задача 

Необходимо проверить, является ли некоторая строка допустимой стро¬ 
кой пути к папке или к файлу в операционной системе МісгозоІЪ \Ѵіп- 

СІОЛѴ8. 

Решение 

Буква устройства в пути 

\А 

[а- 2 ]:\\ # Устройство 

(? : [Л\/: *?"<>|\г\п]+\\)* # Папка 
[ л \\/: *?' ,<> |\г\п]* # Файл 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .НЕТ, Заѵа, РСКЕ, Регі, РуІЬоп, КиЪу 
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~[а-г]:\\(?: [~\\/: *?"<> |\г\п]+\\)*[~\\/: *?”<> | \г\п]*$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірІ, РСКЕ, Регі, Руііюп 

Буква устройства и пути в формате ІЛЧС 

\А 

(? : [а-г]: |\\\\[а-г0-9_. $\*-]+\\[а-г0-9_. $Ѵ-]+)\\ # Устройство 
(? : ["XV: *?"<>|\г\п]+\\)* # Папка 

[~\\/:*?"<>|\г\п]* # Файл 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

~(?:[а-г]:|\\\\[а-г0-9_.$•-]+\\[а-г0-9_.$*-]+)\\(?:[ л \\/:*?"<>|\г\п]+\\)*Д 
[~\\Л*?"<>|\г\п]*$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .1ЧЕТ, ^ѵа, ЛѵаВсгірѣ, РСКЕ, Регі, РуѣЬоп 

Буква устройства, □N0 и относительные пути 

\А 

?:(?:[а-г]:|\\\\[а-г0-9_.$\*-]+\\[а-г0-9_.$\*-]+)\\| # Устройство 

\\?[Л\/:*?"о|\г\п]+\\?) # Относительный путь 

(?:[Л\/>? ,,<> 1\г\п]+\\)* # Папка 

[~\\/: *?’’<>I\г\п]* # Файл 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЪу 

Л (?:(?:[а-г]:|\\\\[а-г0-9_.$*-]+\\[а-г0-9_.$*-]+)\\|\\?[~\\/:*?’’<> М 
\г\п]Л\?)(?:[Л\/:*?"<>1\г\п]+\\)*[Л\/:*?’ , о|\г\п]*$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір{;, РСКЕ, Регі, РуЙюп 

Обсуждение 

Буква устройства в пути 

Сопоставление с полным путем к файлу или папке на устройстве, в кото¬ 
ром присутствует буква устройства, выполняется очень просто. Устрой¬ 
ство обозначается одной буквой, за которой следуют двоеточие и обрат¬ 
ный слэш. Это совпадение обеспечивает простое выражение <[а-г]:\\>. 
Обратный слэш является метасимволом в регулярных выражениях, по¬ 
этому, чтобы обеспечить совпадение с литералом, его необходимо экра¬ 
нировать другим обратным слэшем. 




8.18. Проверка путей в ѴѴіпсІоѵѵз 


587 


Имена папок и файлов в ѴѴтс1о\ѵ8 могут содержать любые символы, за 
исключением следующих: \/:*?"<>|. Разрывы строк в именах недопусти¬ 
мы. Мы легко можем описать совпадение с любым символом, за исклю¬ 
чением указанных, с помощью инвертированного символьного класса 
<[~\\/:*?" <> І\г\п]+>. Обратный слэш в символьных классах также являет¬ 
ся метасимволом, поэтому его необходимо экранировать. Последова¬ 
тельности <\г> и <\п> - это два символа разрыва строки. Подробнее о сим¬ 
вольных классах рассказывается в рецепте 2.3. Квантификатор «плюс» 
(рецепт 2.12) указывает, что требуется совпадение с одним или более 
символами. 

Имена папок в пути отделяются друг от друга обратными слэшами. 
Совпадение с последовательностью из нуля или более имен папок мож¬ 
но описать с помощью выражения <(?:[Л\/:*?"<>|\г\п]+\\)*>, которое по¬ 
мещает выражение, соответствующее имени папки, и литерал обратно¬ 
го слэша в несохраняющую группу (рецепт 2.9), повторяемую ноль или 
более раз с помощью звездочки (рецепт 2.12). 

Для сопоставления с именем файла используется выражение <[Л\/>? 
<>ІѴ\п]*>. Звездочка обеспечивает необязательность имени файла, бла¬ 
годаря чему допускается завершение пути символом обратного слэша. 
Если необходимо, чтобы обратный слэш отсутствовал в конце пути, 
нужно заменить последний символ <*> в регулярном выражении на <+>. 

Буква устройства и пути в формате IIN0 

Пути к файлам на сетевых устройствах, которые не отображаются на 
буквы устройств, можно записывать в соответствии с универсальным 
соглашением об именах (ІІпіѵегзаІ Ыатіщг Сопѵепііоп, ІШС). Пути 
в формате ІШС имеют вид ^зегѵегХзІіагеѴоІсіег^іІе. 

Мы легко можем адаптировать регулярное выражение, совпадающее 
с путями, включающими букву устройства, для сопоставления с путями 
в формате ІШС. Для этого достаточно заменить подвыражение <[а-г]: >, со¬ 
впадающее с буквой устройства, на подвыражение, совпадающее с бук¬ 
вой устройства или с именем сервера. 

Такое совпадение обеспечивает выражение <(?:[а-2]:|\\\\[а-і0-9_.$*-]+\\ 
[а-г0-9_. $•-]+)>. Вертикальная черта - это оператор выбора (рецепт 2.8). 
Он реализует выбор между сопоставлением <[а-г]:> с буквой устройст¬ 
ва и сопоставлением <\\\\[а-20-9_.$*-]+\\[аг0-9_.$*-]+> с именем сервера 
и разделяемого ресурса. Оператор выбора имеет самый низкий приори¬ 
тет среди всех операторов регулярных выражений. Чтобы объединить 
два варианта, мы использовали несохраняющую группировку. Как 
объясняется в рецепте 2.9, символы <(?:> образуют сложного вида от¬ 
крывающую скобку несохраняющей группы. Вопросительный знак по¬ 
сле открывающей круглой скобки теряет свой обычный смысл. 

Остальная часть регулярного выражения может оставаться той же са¬ 
мой. Имя разделяемого ресурса в формате ІШС будет совпадать с ча¬ 
стью регулярного выражения, которая соответствует именам папок. 
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Буква устройства, IIN С и относительные пути 

Относительный путь начинается с имени папки (возможно, со специ¬ 
ального имени папки .., соответствующего родительской папке) или со¬ 
держит только имя файла. Чтобы обеспечить поддержку относитель¬ 
ных путей, необходимо добавить третью конструкцию в раздел регу¬ 
лярного выражения, совпадающего с «устройством». Эта конструкция 
должна совпадать с началом относительного пути, а не с буквой устрой¬ 
ства или именем сервера. 

Выражению <\\?[Л\/:*?"о|\г\п]+\\?> соответствует начало относительно¬ 
го пути. Путь может начинаться с символа обратного слэша, но это не¬ 
обязательно. Подвыражение <\\?> совпадет с символом обратного слэша, 
если он присутствует, или ни с чем в противном случае. Подвыражение 
<[Л\/:*? " 0 І\г\п]+> совпадает с именем папки или файла. Если относи¬ 
тельный путь содержит только имя файла, заключительное подвыра¬ 
жение <\\?> не будет совпадать ни с чем, так же как и обе части регуляр¬ 
ного выражения, соответствующие «папке» или «файлу», каждая из 
которых является необязательной. Если относительный путь опреде¬ 
ляет каталог, заключительное подвыражение <\\?> будет совпадать с об¬ 
ратным слэшем, отделяющим первую папку в относительном пути от 
остальной части пути. Часть регулярного выражения, соответствую¬ 
щая «папке», в этом случае совпадет с остальными именами папок в пу¬ 
ти, если они присутствуют, а часть регулярного выражения, соответст¬ 
вующая «файлу», совпадет с именем файла. 

Регулярное выражение, соответствующее относительному пути, уже не 
имеет отдельных частей, соответствующих различным компонентам ис¬ 
пытуемого текста. Часть регулярного выражения, помеченная как «от¬ 
носительный путь», фактически будет совпадать с именем папки или 
файла, если путь относительный. Если в относительном пути присутст¬ 
вует одно или более имен папок, часть регулярного выражения «относи¬ 
тельный путь» совпадет с первой папкой, а части «папка» и «файл» сов¬ 
падут с тем, что останется. Если относительный путь состоит только из 
имени файла, ему будет соответствовать часть «относительный путь», 
а на долю частей «папка» и «файл» ничего не останется. Так как нас ин¬ 
тересует только проверка корректности пути, это обстоятельство не 
имеет никакого значения. Комментарии в регулярном выражении иг¬ 
рают роль меток, чтобы помочь вам лучше понять его. 

Если потребуется извлекать отдельные части пути в сохраняющие груп¬ 
пы, то придется приложить больше усилий, чтобы обеспечить совпаде¬ 
ние с буквой устройства, именем папки или файла по отдельности. Эта 
проблема решается в следующем рецепте. 

См. также 

Рецепт 8.19, в котором также проверяются пути ДѴіпсіолѵз, а кроме того, 
добавляются сохраняющие группы для буквы устройства, папки и фай¬ 
ла, позволяя извлекать их по отдельности. 
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Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.2 объясняется, как искать 
совпадения с непечатаемыми символами. В рецепте 2.3 рассказывается 
о символьных классах. В рецепте 2.5 обсуждаются якорные метасимво¬ 
лы. В рецепте 2.8 описывается применение оператора выбора. В рецеп¬ 
те 2.9 рассказывается о группировке. В рецепте 2.12 объясняется, как 
организовать сопоставление с повторяющимися комбинациями симво¬ 
лов. В рецепте 2.18 описывается, как добавлять комментарии. 

8.19. Выделение элементов путей в ѴѴіпсіоѵѵб 

Задача 

Необходимо проверить, выглядит ли испытуемый текст как допусти¬ 
мый путь к папке или к файлу в операционной системе Місгозоіі; АѴіп- 
сіслѵз. Если окажется, что испытуемый текст хранит допустимый путь 
"ѴѴтсіолѵз, то необходимо извлечь букву устройства, часть пути с имена¬ 
ми папок и имя файла по отдельности. 

Решение 

Буква устройства в пути 

\А 

(?<сІгіѵе>[а- 2 ] : )\\ 

(?<1 = о1с)ег>(?: [~\\/: *?"<>|\г\п]+\\)*) 

(?<Ше>['\\/:*?"<>|\г\п]*) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа 7, РСКЕ 7, Регі 5.10, НиЬу 1.9 

\А 

(?Р<йгіѵе>[а-г] :)\\ 

(?Р<Ро1сІег>(? : [~\\/: *?"<>!\г\п]+\\)*) 

(?Р<Ще>Г\\/:*?"<>|\г\п]*) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: РСКЕ 4 и более поздние версии, Регі 5.10, РуіЬоп 

\А 

([а- 2 ]:)\\ 

((?: [ ~\\/: *?"О I\г\п ]+\\) *) 

(Г\\/:*?"о|\г\п].) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, .Іаѵа, РСКЕ, Регі, РуіЬоп, КиЪу 
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"([а-2]:)\\((?:[Л\/:*?"о|\г\п]+\\)*)([Л\/:*?"<>І\г\п]*)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .КЕТ, ^ѵа, ЛѵаЗсгірі;, РСКЕ, Регі, РуШоп 

Буква устройства и пути в формате ІЛЧС 

\А 

(?<сІгіѵе>[а- 2 ]:|\\\\[а-г0-9_.$*-]+\\[а-20-9_.$*-]+)\\ 

(?<Го1сІег>(? : [Л\/: *?"<> |\г\п]+\\)*) 

(?<Гі1е>[ ~\\/: *? "■<> I \ г\п ] *) 

\2 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .КЕТ, ^ѵа 7, РСКЕ 7, Регі 5.10, КиЬу 1.9 


\А 

( ?Р<сІ гіѵе>[а- 2 ]:|\\\\[а-г0-9_.$*-]+\\[а-г0-9_.$*-]+)\\ 

(?Р<Го1сіег>(?:[Л\/: *?"<> |\г\п]+\\)*) 

(?Р<Гі1е>[ л \\/: *?"<>|\г\п]*) 

\2 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: РСКЕ 4 и более поздние версии, Регі 5.10, Руіііоп 


\А 

([а-2]:|\\\\[а-20-9_.$.-]+\\[а-20-9_.$.-]+)\\ 

((?:[~\\/:*?"<>|\г\п]+\\)*) 

([Л\/:*?"<>1\г\п]*) 

\2 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .КЕТ, ^ѵа, РСКЕ, Регі, РуІЬоп, КиЬу 

~([а-г]: |\\\\[а-20-9_. $«-]+\\[а-г0-9_. $•-]+)\\( (?: [Л\/: *?"<> |\г\п ]+\\ )*)«-• 

([Л\/>?"о|\г\п]*)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .КЕТ, ^ѵа, ЛѵаЗсгірѣ, РСКЕ, Регі, РуІЬоп 

Буква устройства, IIN С и относительные пути 

Следующие регулярные выражения могут совпадать с пустой стро¬ 
кой. Дополнительные сведения и альтернативное решение приво¬ 
дятся в разделе «Обсуждение». 



\А 

(?<йгіѵе>[а-2]:\\|\\\\[а-20-9_.$-]+\\[а-20-9_.$.-]+\\І\\?) 

(?<'Го1с1ег>(?: [~\\/:*?"<>|\г\п]+\\)*) 

(?<1 = і1е>[ ~\\/: *?"<> |\г\п ]*) 

\2 
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Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: ШЕТ, Заѵа 7, РСКЕ 7, Регі 5.10, КиЬу 1.9 

\А 

(?Р<с1гіѵе>[а-2]:\\|\\\\[а-і0-9_. $*-]+\\[а-20-9_.$^-]+\\|\\?) 

(? Р<Го1с1е г> (?: [Л\/ :*?"<>!\г\п ]+\\) *) 

(?Р<^і1е>[ л \\/: *?"<>|\г\п]*) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: РСКЕ 4 и более поздние версии, Регі 5.10, РуІЬоп 

\А 

([а-2]:\\|\\\\[а-20-9_.$.-]+\\[а-20-9_.$.-]+\\І\\?) 

((?:[Л\/:*?"о|\г\п]Л\)*) 

([ л \\/•*?"<>|\г\п]*) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: ШЕТ, Заѵа, РСКЕ, Регі, Руіііоп, КиЬу 

"([а-г] :\\|\\\\[а-г0-9_. $*-]+\\[а-г0-9_. $*-]+\\І\\?)«-І 

((?:[Л\/:*?"<>1\г\п]+\\)*)([Л\/:*? ,, о|\г\п]*)$ 

Параметры: нечувствительность к регистру символов 
Диалекты: ШЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуІЪоп 

Обсуждение 

Регулярные выражения в этом рецепте очень похожи на выражения 
в предыдущем рецепте. Здесь предполагается, что вы уже прочитали 
и поняли пояснения, которые приводились в предыдущем рецепте. 

Буква устройства в пути 

В регулярное выражение, совпадающее со строкой пути, включающей 
букву устройства, было внесено единственное изменение по сравнению 
с выражением из предыдущего рецепта. Мы добавили три сохраняю¬ 
щие группы, которые можно использовать для извлечения различных 
частей пути: <сі г іѵе> (устройство), ^оісіеп (папка) и <1 = і1е> (файл). Если ис¬ 
пользуемый диалект регулярных выражений поддерживает именован¬ 
ные сохранения (рецепт 2.11), можно использовать эти имена. В против¬ 
ном случае можно ссылаться на сохраняющие группы по их номерам: 1, 
2 и 3. В рецепте 3.9 можно узнать, как извлекать текст, совпавший с со¬ 
храняющей группировкой, в различных языках программирования. 

Буква устройства и пути в формате ІШС 

В выражение, совпадающее с путями в формате ІШС, мы добавили те 
же три сохраняющие группы. 
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Буква устройства, ІІІЧС и относительные пути 

Регулярное выражение становится сложнее, когда возникает необхо¬ 
димость обеспечить совпадение с относительными путями. В предыду¬ 
щем рецепте просто была добавлена третья конструкция в часть выра¬ 
жения, совпадающую с началом относительного пути. В данном случае 
это невозможно. При совпадении с относительными путями сохраняю¬ 
щая группа, соответствующая букве устройства, должна оставаться 
пустой. 

На этот раз символ обратного слэша, следовавший в выражении из раз¬ 
дела «Буква устройства и пути в формате ІШС» вслед за сохраняющей 
группой с буквой устройства, переместился в эту сохраняющую груп¬ 
пу. Мы добавили его в конец конструкций выбора, соответствующих 
букве устройства и сетевому имени разделяемого ресурса. Мы также 
добавили третью конструкцию выбора с необязательным обратным слэ¬ 
шем для совпадения с относительными путями, которые могут начи¬ 
наться с символа обратного слэша. Так как третья конструкция являет¬ 
ся необязательной, то и вся группа, совпадающая с устройством, фак¬ 
тически становится необязательной. 

Получившееся регулярное выражение будет совпадать с любыми путями 
в операционной системе ДА/іпсіолѵз. Проблема состоит в том, что сделав не¬ 
обязательной часть, совпадающую с устройством, мы получили регуляр¬ 
ное выражение, в котором все части являются необязательными. Части, 
совпадающие с именами папок и файлов, уже были необязательными 
в выражениях, поддерживавших только абсолютные пути. Другими 
словами, это регулярное выражение может совпадать с пустой строкой. 

Если необходимо гарантировать невозможность совпадения с пустой 
строкой, следует добавить дополнительные альтернативы для работы 
с относительными путями, которые определяют папку (когда имя фай¬ 
ла является необязательным), и с относительными путями, которые не 
определяют папку (когда имя файла является обязательным): 

\А 

(?: 

(?<сігіѵе>[а- 2 ] : |\\\\[а-г0-9_. $*-]+\\[а-г 0 - 9 _. $*-]+)\\ 

(?<-Го1с1ег>(?: [Л\/:*?"<> |\г\п]+\\)*) 

(?<Ше>[Л\/: *?"<>|\г\п]*) 

| (?< геіаіііѵеі^оісіе г>\\?(?:[~\\/:*?”<>|\г\п]+\\)+) 

(?<Ше2>Г\\/:*?”<>|\г\п]*) 

| (?< ге1а1:іѵе1 = і1е>[ Л \\/: *?”<>|\г\п]+) 

) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .КЕТ, Лѵа 7, РСКЕ 7, Регі 5.10, КиЬу 1.9 

\А 

(?: 
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(? Р<сІ гіѵе>[ а- 2 ]:|\\\\[а-г0-9_.$*-]+\\[а-г0-9_.$*-]+)\\ 

(?Р<То1сіег>(? : [~\\/: *?"<>|\г\п]+\\)*) 

(?Р<Ті1е>[ ~\\/:*?”<>|\г\п]*) 

| (?Р< геІаІііѵе-ГоІсіе г>\\?(?: [~\\/: *?"<> |\г\п]+\\)+) 

(?Р<Ті1е2>[Л\/: *?"<>!\г\п]*) 

| (?Р< геІаІііѵеРі 1е>[ Л \\/: *?"<> |\г\п]+) 

) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: РСКЕ 4 и более поздние версии, Регі 5.10, РуІЬоп 

\А 

(?: 

([а- 2 ]:|\\\\[а-г0-9_.$*-]+\\[а-г0-9_.$—]+)\\ 

((?:[Л\/:*?"о|\г\п]Л\)*) 

([~\\/:*?"<>|\г\п]*) 

I (\\?(?:[ЛѴ:*?"0|\г\п]+\\) + ) 

([ЛѴ:*?"<>І\г\п]*) 

I ([Л\/>?"о|\г\п]+) 

) 

V 

Параметры: режим свободного форматирования, нечувствительность 
к регистру символов 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, РуЙюп, КиЬу 

~(?:([а- 2 ]: |\\\\[а-г0-9_.$•-]+\\[а-г0-9_. $-]+)\Ѵ 

((?:[Л\/:*? ,, <>І\г\п]+\\)*)([Л\/:*?"о|\г\п]*)І(\\?(?:[Л\/:*?"<>М 

\г\п]+\\)+)([Л\/:*?"<>1\г\п]*)1([Л\/:*?"<>1\г\п]+))$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуНюп 

Из-за того что была исключена возможность совпадения с пустой стро¬ 
кой, мы получили шесть сохраняющих групп, которые сохраняют три 
различные части пути. В каждом конкретном случае следует опреде¬ 
литься заранее, что будет проще - выполнить дополнительную провер¬ 
ку на отсутствие символов в строке перед применением этого выраже¬ 
ния или приложить дополнительные усилия для обработки несколь¬ 
ких сохраняющих групп после того, как совпадение уже будет найдено. 

Диалекты Регі 5.10, КиЬу 1.9 и .ЫЕТ допускают возможность присваи¬ 
вания одного и того же имени нескольким именованным группам. По¬ 
дробнее об этом рассказывается в рецепте 2.11 в разделе «Группы с оди¬ 
наковыми именами». Благодаря этому можно просто извлекать совпа¬ 
дение с группой <Го1сІег> (папка) или <Гі1е> (файл), не беспокоясь о том, 
какая из двух групп сі'оісіе г> или какая из трех групп <Гі1е> фактически 
участвовала в совпадении: 

\А 

(?: 

(?<сІгіѵе>[а- 2 ] :|\\\\[а-г0-9_.$*-]+\\[а-20-9_.$*-]+)\\ 
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(?<То1йег>(?:[“\\/:*?"<>|\г\п]+\\)*) 

(?<Гі1е>["\\/:*?”<>|\г\п]*) 

| (?<То1йег>\\?(?:[“\\/:*?"<>|\г\п]+\\)+) 

(?<Гі1е>['\\/:*?"<> | \г\п]*) 

| (?<Гі1е>[~\\/:*?"<>|\г\п]+) 

) 

\2 

Параметры: режим свободного форматирования, нечувствительность 

к регистру символов 

Диалекты: ЫЕТ, Регі 5.10, КиЪу 1.9 

См. также 

Рецепт 8.18, в котором также проверяются пути АѴіпсІолѵз с использова¬ 
нием упрощенных регулярных выражений без отдельных сохраняю¬ 
щих групп для устройства, папки и файла. 

В рецепте 3.9 описывается, как извлекать фрагменты текста, совпав¬ 
шие с сохраняющими группами в программном коде. Воспользуйтесь 
им, чтобы реализовать извлечение необходимых частей пути. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.2 объясняется, как искать 
совпадения с непечатаемыми символами. В рецепте 2.3 рассказывается 
о символьных классах. В рецепте 2.5 обсуждаются якорные метасимво¬ 
лы. В рецепте 2.8 описывается применение оператора выбора. В рецеп¬ 
те 2.9 рассказывается о группировке. В рецепте 2.11 обсуждаются име¬ 
нованные группировки. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. 

8.20. Извлечение буквы устройства 
из путей в ѴѴіпсІоѵѵз 

Задача 

Имеется строка, в которой хранится синтаксически допустимый путь 
к файлу или папке на диске в системе АѴіпсіолѵз или в сети. Необходимо 
извлечь букву устройства, если таковая присутствует. Например, необ¬ 
ходимо извлечь букву с из пути с:\1 = о1с1ег\'Ше.ех1. 

Решение 

'([а- 2 ]): 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуЙюп, КиЬу 
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Обсуждение 

Извлечение буквы устройства из строки, которая заведомо содержит 
допустимый путь, является тривиальной задачей, даже если заранее не 
известно, действительно ли путь начинается с буквы устройства. Путь 
может быть или относительным, или в формате ІШС. 

Двоеточие в строках путей в системе ѴѴіпсіоѵуз является недопустимым 
символом, за исключением случая, когда оно используется для отделе¬ 
ния буквы устройства. То есть если в начале строки имеется буква, за 
которой следует двоеточие, можно быть уверенными, что эта буква яв¬ 
ляется буквой устройства. 

Якорный метасимвол Г> совпадает с началом строки (рецепт 2.5). Тот 
факт, что в КиЪу символ крышки также совпадает с разрывами строк, не 
имеет большого значения, потому что допустимые пути в МТіпсІолѵз не со¬ 
держат разрывов строк. Символьный класс <[а-г]> совпадает с единствен¬ 
ной буквой (рецепт 2.3). Мы поместили символьный класс между парой 
круглых скобок (образующих сохраняющую группу), благодаря чему 
получили возможность извлекать букву устройства без символа двоето¬ 
чия, который также совпадает с регулярным выражением. Мы добавили 
двоеточие в регулярное выражение, чтобы гарантировать совпадение 
с буквой устройства, а не с первой буквой в относительном пути. 

См. также 

Рецепт 2.9, где рассказывается о сохраняющей группировке. 

Рецепт 3.9, где можно узнать, как извлекать текст, совпавший с сохра¬ 
няющей группировкой, в том или ином языке программирования. 

Рецепт 8.19, если заранее неизвестно, хранит ли испытуемая строка до¬ 
пустимый путь М/іпсіолѵз. 

8.21. Извлечение имен сервера 
и разделяемого ресурса из пути в формате IIN0 

Задача 

Имеется строка, в которой хранится синтаксически допустимый путь 
к файлу или папке на диске в системе А/Ѵіпсіолѵз или в сети. Если путь 
указан в формате ІЖС, необходимо извлечь имя сетевого сервера и имя 
разделяемого ресурса на сервере, содержащиеся в пути. Например, не¬ 
обходимо извлечь зегѵег и зііаге из пути \\зегѵег\зІпаге\1 = о1сІег\1 = і1е.ехі;. 

Решение 

Л\\\([а-20-9_. $*-]+)\\([а-г0-9_. $•-]+) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, Заѵа8сгір1, РОКЕ, Регі, РуіЬоп, КиЪу 
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Обсуждение 

Извлечение имени сетевого сервера и разделяемого ресурса из строки, 
которая заведомо содержит допустимый путь, является простой зада¬ 
чей, даже если заранее неизвестно, действительно ли строка содержит 
путь в формате ІШС. Путь может быть относительным или начинаться 
с буквы устройства. 

Пути в формате ІШС начинаются с двух символов обратного слэша. Два 
обратных слэша в строках путей в системе ХѴіпсІолѵз являются недопус¬ 
тимыми, за исключением случая, когда они стоят в начале пути в фор¬ 
мате ІШС. То есть если в начале строки имеются два символа обратного 
слэша, можно быть уверенными, что за ними следуют имя сервера и имя 
разделяемого ресурса. 

Якорный метасимвол <~> совпадает с началом строки (рецепт 2.5). Тот 
факт, что в диалекте КиЬу символ крышки также совпадает с разрыва¬ 
ми строк, не имеет большого значения, потому что допустимые пути 
в \Ѵтс1олѵ8 не содержат разрывов строк. Подвыражение <\\\\> совпадает 
с двумя литералами обратного слэша. Так как обратный слэш в регу¬ 
лярных выражениях является метасимволом, его необходимо экрани¬ 
ровать другим символом обратного слэша, чтобы обеспечить совпадение 
с литералом. Первый символьный класс <[а-г0-9_. $*-]+> совпадает с име¬ 
нем сетевого сервера. Второй, следующий за другим литералом обратно¬ 
го слэша, совпадает с именем разделяемого ресурса. Мы поместили сим¬ 
вольные классы между парами круглых скобок, образующими сохра¬ 
няющие группы, чтобы иметь возможность извлекать имя сервера из 
первой сохраняющей группы, а имя разделяемого ресурса - из второй. 
Все регулярное выражение будет совпадать с фрагментом \\зегѵег\зІіаге . 

См. также 

Рецепт 2.9, где рассказывается о сохраняющей группировке. 

Рецепт 3.9, где можно узнать, как извлекать текст, совпавший с сохра¬ 
няющей группировкой, в том или ином языке программирования. 

Рецепт 8.19, если заранее неизвестно, хранит ли испытуемая строка до¬ 
пустимый путь АѴіпсІолѵз. 

8.22. Извлечение имен папок из путей в ѴѴіпсіоѵѵз 

Задача 

Имеется строка, в которой хранится синтаксически допустимый путь 
к файлу или папке на диске в системе ^іпсіолѵз или в сети. Необходи¬ 
мо извлечь из пути имя папки. Например, необходимо извлечь фраг¬ 
мент ХІюІсІеіЛзиЬ'ГоІсІеіЛ из пути с :\‘Го1сІег\зиЫ = о1сіег\'Гі1е. ехі: или из пути 
\\зегѵег\з1паге\'Го1с1ег\зиЫ = о1сІег\1 = і1е. ехі;. 




8.22. Извлечение имен папок из путей в ѴѴІпсІоѵѵз 


597 


Решение 

~([а- 2 ]: |\\\\[а-20-9_.$.-]+\\[а-20-9_. $-]+)?((? :\\Г)и 

(?:[~\\/:*?"<>|\г\п]+\\)+) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі;, РСКЕ, Регі, РуНюп, КиЪу 

Обсуждение 

Извлечение имени папки из строки, содержащей путь в ЛѴіпсклѵз, мо¬ 
жет оказаться непростым делом, если требуется обеспечить поддержку 
формата ІШС, потому что нельзя просто извлечь часть пути между сим¬ 
волами обратного слэша. В этом случае в совпадение попадут имя сете¬ 
вого сервера и имя разделяемого ресурса. 

Первая часть регулярного выражения, <Д[а-2]:|\\\\[а-20-9_.$*-]Л\[а-г0- 
9_. $•-]+)?>, перепрыгивает через букву устройства или имя сетевого сер¬ 
вера и имя разделяемого ресурса, находящиеся в начале пути. Эта часть 
регулярного выражения состоит из сохраняющей группы с двумя аль¬ 
тернативами. Первая совпадает с буквой устройства, как описывается 
в рецепте 8.20, а вторая - с именем сервера и именем разделяемого ре¬ 
сурса в пути, представленном в формате ІШС, как описывается в рецеп¬ 
те 8.21. Оператор выбора описывается в рецепте 2.8. 

Знак вопроса, следующий за группой, делает ее необязательной. Это 
позволяет обеспечить поддержку относительных путей, в которых от¬ 
сутствует буква устройства или имя разделяемого сетевого ресурса. 

Совпадение с папками легко обеспечить с помощью подвыражения 
<(?:[Л\/:*?"<>1\г\п]+\\)+>. Символьный класс совпадает с именем папки. 
Несохраняющая группа совпадает с именем папки, за которым следует 
символ обратного слэша, отделяющий папки друг от друга и от имени 
файла. Группа повторяется один или более раз. Это означает, что дан¬ 
ное регулярное выражение будет совпадать только с теми путями, в ко¬ 
торых действительно присутствует имя папки. Пути, в которых указы¬ 
вается только имя файла, устройство или имя сетевого ресурса, совпа¬ 
дать с регулярным выражением не будут. 

Если путь начинается с буквы устройства или с имени сетевого ресурса, 
за ними должен следовать символ обратного слэша. Относительные пу¬ 
ти могут начинаться с обратного слэша. Поэтому в начало группы в час¬ 
ти выражения, совпадающей с папкой, необходимо добавить необяза¬ 
тельный обратный слэш. Так как данное регулярное выражение пред¬ 
полагается использовать только с заведомо допустимыми путями, нет 
необходимости требовать наличия обратного слэша в случае наличия 
в пути буквы устройства или имени сетевого ресурса. Достаточно лишь 
допустить его присутствие. 

Регулярное выражение должно совпадать по меньшей мере с одной пап¬ 
кой, поэтому мы обеспечили невозможность совпадения с фрагментом 
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е\ как с именем папки в пути \\зегѵег\з1іаге\. Кроме того, чтобы доба¬ 
вить совпадение с необязательным обратным слэшем в начало сохра¬ 
няющей группы, совпадающей с именем папки, мы использовали под¬ 
выражение <(\\Г)>, а не <\\?>. 

Если вам интересно узнать, почему фрагмент \\зегѵег\зІіаг может совпа¬ 
дать как буква устройства, а фрагмент е\ - как имя папки, загляните 
в рецепт 2.13. Это обусловлено тем, что механизмы регулярных выра¬ 
жений выполняют возвраты. Рассмотрим следующее регулярное выра¬ 
жение: 

~([а- 2 ]: |\\\\[а-і0-9_. $*-]+\\[а-20-9_.$»-]+)?^1 

((?:\\?(?:[~\\/:*?"<>|\г\п]+\\) + ) 

Это регулярное выражение, так же как и регулярное выражение, пред¬ 
ставленное в решении, требует наличия в пути хотя бы одного символа, 
отличного от обратного слэша, и одного обратного слэша. Если регуляр¬ 
ное выражение обнаружит в пути \\зегѵег\зііаге совпадение \\зегѵег\ 
зііаге с буквой устройства и затем потерпит неудачу при сопоставлении 
группы, совпадающей с именем папки, оно не остановится на достигну¬ 
том, а попытается выполнить различные перестановки. 

В этом случае механизм вспомнит, что символьный класс <[а-г0-9_. $•-]+>, 
соответствующий имени сетевого ресурса, необязательно должен со¬ 
ответствовать всем доступным символам. Чтобы удовлетворить кван¬ 
тификатор <+>, достаточно одного символа. Механизм выполнит воз¬ 
врат, заставив символьный класс уступить один символ, и повторит 
попытку. 

Когда механизм продолжит сопоставление, в испытуемой строке оста¬ 
нется два символа, способных обеспечить совпадение с папкой: е\. Этих 
двух символов вполне достаточно, чтобы удовлетворить подвыражение 
<(?:[Л\/'*? " <> ІѴ\п]+\\)+>, в результате чего будет обеспечено совпадение 
для всего регулярного выражения. Но это не то совпадение, которое 
ожидалось. 

Использовав подвыражение < (\\ Г) > вместо <\\?>, мы решили эту пробле¬ 
му. Оно также допускает наличие обратного слэша, но в случае его от¬ 
сутствия оно требует, чтобы в начале строки находилось имя папки. 
Это означает, что если будет обнаружено совпадение с буквой устройства 
и механизм регулярных выражений таким образом продвинется даль¬ 
ше начала строки, наличие обратного слэша становится обязательным. 
Если далее не будет найдено совпадение ни с одной папкой, механизм 
регулярных выражений также попытается выполнить возврат, но без¬ 
успешно, потому что сопоставление с подвыражением <(\\Г)> потерпит 
неудачу. Механизм регулярных выражений будет производить возвра¬ 
ты, пока не достигнет начала строки. Сохраняющая группа, совпадаю¬ 
щая с буквой устройства и именем сетевого ресурса, является необяза¬ 
тельной, поэтому механизм регулярных выражений сможет попытаться 
выполнить сопоставление для части выражения, совпадающей с име- 
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нем папки, с начала строки. Хотя подвыражение <(\\Г)> сможет обнару¬ 
жить там совпадение, остальная часть регулярного выражения не до¬ 
пустит этого, потому что подвыражение <(?:[Л\/:*?’’<> ІѴ\п]+\\)+> делает 
невозможным совпадение с двоеточием, следующим за буквой устрой¬ 
ства, или с двойным обратным слэшем, с которого начинается имя сете¬ 
вого ресурса. 

Мы не использовали этот прием в рецептах 8.18 и 8.19, потому что в тех 
регулярных выражениях совпадение с папкой было необязательным. 
Так как в тех регулярных выражениях все, что следовало за частью, 
совпадающей с устройством, объявлено необязательным, механизм ре¬ 
гулярных выражений никогда не будет выполнять никаких возвратов. 
Конечно, такая необязательность может привести к другим проблемам, 
как описывается в рецепте 8.19. 

Когда регулярное выражение обнаружит совпадение, первая сохраняю¬ 
щая группа будет содержать букву устройства или имя сетевого ресур¬ 
са, а вторая сохраняющая группа - имя папки. При совпадении с отно¬ 
сительным путем первая сохраняющая группа будет содержать пустую 
строку. Вторая сохраняющая группа всегда будет содержать хотя бы 
одно имя папки. Если применить это регулярное выражение к пути, 
в котором папка отсутствует, оно вообще не будет обнаруживать сов¬ 
падение. 

См. также 

Рецепт 2.9, где рассказывается о сохраняющей группировке. 

Рецепт 3.9, где можно узнать, как извлекать текст, совпавший с сохра¬ 
няющей группировкой, в различных языках программирования. 

Рецепт 8.19, если заранее неизвестно, хранит ли испытуемая строка до¬ 
пустимый путь ДѴіпсІолѵз. 

8.23. Извлечение имени файла из пути ѴѴіпсІоѵѵз 

Задача 

Имеется строка, в которой хранится синтаксически допустимый путь 
к файлу или папке на диске в системе АѴіпсклѵз или в сети. Необходимо 
извлечь из пути имя файла. Например, необходимо извлечь фрагмент 

~Гі1е.ехі: из пути с:ѴРо1сіегѴРі1е.ех1. 

Решение 

[~\\/:*?"<>|\г\п]+$ 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуНюп, КиЪу 
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Обсуждение 

Извлечение имени файла из строки, которая заведомо содержит допус¬ 
тимый путь, является тривиальной задачей, даже если заранее неиз¬ 
вестно, действительно ли путь оканчивается именем файла. 

Имя файла всегда находится в конце строки. Оно не может содержать 
символы двоеточия или обратного слэша, поэтому его невозможно пере¬ 
путать с именем папки, с буквой устройства или с именем сетевого ресур¬ 
са, в которых используются символы обратного слэша и/или двоеточия. 

Якорный метасимвол <$> совпадает с концом строки (рецепт 2.5). Тот 
факт, что в диалекте КиЬу знак доллара также совпадает с разрывами 
строк, не имеет большого значения, потому что допустимые пути в АА/іп- 
склѵз не содержат разрывов строк. Инвертированный символьный класс 
< [~\\/:*?" <> 1\г\п]+> (рецепт 2.3) совпадает с символами, которые могут 
присутствовать в именах файлов. Несмотря на то что механизм регу¬ 
лярных выражений сканирует испытуемую строку в направлении сле¬ 
ва направо, якорь в конце регулярного выражения гарантирует, что 
только совпадение с последними символами в строке будет интерпрети¬ 
роваться как имя файла. 

Если испытуемая строка оканчивается обратным слэшем, как в путях, 
где не указываются имена файлов, регулярное выражение вообще не 
будет обнаруживать совпадение. Когда оно действительно будет обнару¬ 
живать соответствие, совпадение будет содержать только имя файла, 
поэтому нет необходимости в использовании сохраняющей группы для 
отделения имени файла от остальной части пути. 

См. также 

Рецепт 3.7, где можно узнать, как извлекать текст, совпавший с регу¬ 
лярным выражением, в различных языках программирования. 

Рецепт 8.19, если заранее неизвестно, хранит ли испытуемая строка до¬ 
пустимый путь ААТіпсіолѵз. 

8.24. Извлечение расширения имени файла 
из пути ѴѴіпсІоѵѵз 

Задача 

Имеется строка, в которой хранится синтаксически допустимый путь 
к файлу или папке на диске в системе АѴіпсіолѵз или в сети. Необходимо 
извлечь из пути расширение имени файла, если оно имеется. Напри¬ 
мер, необходимо извлечь фрагмент .ехі из пути сіѴРоІсІегѴШе.ехІ:. 

Решение 

\.[\\\/:.?"<>|\г\п]+$ 
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Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірі;, РСКЕ, Регі, РуЙюп, КиЪу 

Обсуждение 


Для извлечения расширения имени файла можно использовать тот же 
прием, который применялся для извлечения всего имени файла в ре¬ 
цепте 8.23. 

Единственное отличие заключается в том, как обрабатывать точку. Ре¬ 
гулярное выражение в рецепте 8.23 не включает никаких точек. Инвер¬ 
тированный символьный класс в выражении из рецепта 8.23 просто 
обеспечивает совпадение с любыми точками, которые могут встретить¬ 
ся в имени файла. 

Расширение имени файла начинается с точки. Поэтому мы добавили 
<Ѵ> в начало регулярного выражения, чтобы обеспечить совпадение 
с точкой. 

Такие имена файлов, как Ѵегзіоп 2.0.1x1:, могут содержать несколько то¬ 
чек. Последняя точка является той, что отделяет расширение от имени 
файла. Само расширение не может содержать точек. Мы указали на это 
обстоятельство, поместив точку в символьный класс. Внутри символь¬ 
ных классов точка играет роль обычного литерала, поэтому ее можно 
не экранировать. Якорь <$> в конце регулярного выражения гарантиру¬ 
ет, что с выражением будет совпадать фрагмент ЛхЕ, а не Л). 

Если испытуемая строка оканчивается обратным слэшем или именем 
файла, не содержащим ни одной точки, регулярное выражение вообще 
не будет обнаруживать совпадение. Когда оно действительно будет обна¬ 
руживать соответствие, совпадение будет содержать расширение, вклю¬ 
чая точку, которая отделяет его от имени файла. 

См. также 

Рецепт 8.19, если заранее неизвестно, хранит ли испытуемая строка до¬ 
пустимый путь 'ѴѴіпсІохѵз. 

8.25. Удаление недопустимых символов 
из имен файлов 

Задача 

Необходимо удалить последовательности символов, которые недопусти¬ 
мы в именах файлов АѴіпсІолѵз. Например, имеется строка с названием до¬ 
кумента, которую требуется использовать как имя файла по умолчанию, 
когда пользователь в первый раз щелкнет на кнопке 5аѵе (Сохранить). 
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Решение 

Регулярное выражение 

[\\/:"*?<>|]+ 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, Лѵа8сгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Замещающий текст 

Оставить пустой строку с замещающим текстом. 

Диалекты замещающего текста: .ЫЕТ, ^ѵа, ^ѵа8сгірі, РНР, Регі, РуНюп, 

КиЬу 


Обсуждение 

В именах файлов в системе 'ѴѴіпсІолѵз не допускается использовать сим¬ 
волы \/: "*?<> |. Эти символы используются для отделения имен устройств 
и папок, для заключения путей в кавычки, в качестве шаблонных сим¬ 
волов и для перенаправления ввода-вывода в командной строке. 

Совпадение с этими символами легко можно обеспечить с помощью 
символьного класса <[ \\/:"*?<> | ]>. Обратный слэш в символьных классах 
является метасимволом, его необходимо экранировать другим симво¬ 
лом обратного слэша. Все остальные символы всегда интерпретируются 
в символьных классах как литералы. 

Для повышения эффективности мы повторяем символьный класс с по¬ 
мощью квантификатора <+>. Поэтому если строка содержит непрерыв¬ 
ную последовательность недопустимых символов, то вся эта последова¬ 
тельность будет удалена за один проход. Разница в производительности 
едва ли будет заметна при работе с короткими строками, такими как 
имена файлов, но это отличный прием, который следует иметь в виду 
при работе с большими объемами данных, где наверняка будут встре¬ 
чаться длинные последовательности символов, которые следует удалить. 

Так как требуется всего лишь удалить нежелательные символы, в ка¬ 
честве замещающего текста в операции поиска с заменой следует ис¬ 
пользовать пустую строку. 

См. также 

Рецепт 3.14, где описывается, как реализовать операцию поиска с заме¬ 
ной с использованием фиксированного замещающего текста в разных 
языках программирования. 




Разметка и форматы данных 


Обработка разметки и данных в различных 
форматах с помощью регулярных выражений 

Основное внимание в заключительной главе будет уделено решению ти¬ 
пичных задач, которые возникают при работе с различными языками 
разметки и форматами данных: НТМЬ, ХНТМЬ, ХМЬ, С8Ѵ и ШІ. Хотя 
предполагается по крайней мере базовое знакомство с этими технологи¬ 
ями, тем не менее далее приводятся краткие описания каждой из них, 
чтобы можно было освежить свои знания, прежде чем погружаться в эти 
технологии. Описания концентрируются на основных синтаксических 
правилах, необходимых для обеспечения корректного поиска структур 
данных в каждом из форматов. Остальные подробности будут вводить¬ 
ся по мере необходимости, когда мы будем сталкиваться с соответству¬ 
ющими проблемами. 

Это не всегда очевидно, но некоторые из этих форматов могут оказаться 
неожиданно сложными в обработке, по крайней мере, с помощью регу¬ 
лярных выражений. При разработке программ для решения большин¬ 
ства задач, рассматриваемых в этой главе, вместо регулярных выраже¬ 
ний лучше использовать специализированные парсеры и функции, осо¬ 
бенно если точность имеет большое значение (например, если результа¬ 
ты обработки могут повлиять на безопасность). Однако мы не являемся 
сторонниками устоявшегося мнения, что разметка в стиле ХМЬ нико¬ 
гда не должна обрабатываться с применением регулярных выражений. 
Регулярные выражения с успехом могут использоваться в разных ситуа¬ 
циях, например при редактировании разметки в текстовом редакторе, 
для выборки данных из ограниченного набора файлов НТМЬ, исправ¬ 
ления ошибок в разметке ХМЬ или для обработки файлов в форматах, 
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напоминающих ХМЬ. Да, существуют некоторые проблемы, о которых 
следует знать, но после прочтения этой главы они не станут для вас не¬ 
ожиданностью. 

За дополнительной информацией о применении регулярных выраже¬ 
ний для выделения лексем в нестандартных форматах данных обра¬ 
щайтесь к рецепту 3.22. 

Основные синтаксические правила 
форматов, охватываемых в этой главе 

Далее приводятся основные синтаксические правила для форматов 
файлов НТМЬ, ХНТМЬ, ХМЬ, С8Ѵ и ШІ. Следует отметить, что боль¬ 
шая часть сложностей, о которых будет рассказано в этой главе, связа¬ 
на с необходимостью обрабатывать ситуации, возникающие при разно¬ 
образных отклонениях от приведенных далее правил. 

Язык разметки гипертекста (Нурегіехі Магкир Ьап§иа§е, НТМЬ) 

Язык НТМЬ используется для описания структуры, семантики 
и представления миллиардов веб-страниц и других документов. Хо¬ 
тя желание попытаться привлечь регулярные выражения к обработ¬ 
ке НТМЬ-документов является совершенно естественным, следует 
знать заранее, что этот язык плохо подходит для обработки жестки¬ 
ми и точными регулярными выражениями. Это особенно верно в от¬ 
ношении увечной разметки НТМЬ, которая часто встречается в веб¬ 
страницах частично благодаря чрезвычайной терпимости веб-брау¬ 
зеров к определенным ошибкам в конструировании разметки НТМЬ. 
В этой главе мы сосредоточимся на правилах обработки ключевых 
компонентов корректно оформленного документа НТМЬ: элементов 
(и атрибутов, содержащихся в них), ссылок на символы, коммента¬ 
риев и объявлений типов документов. В этой книге рассматриваются 
версии НТМЬ 4.01 (выпущенная в 1999 году) и НТМЬ5 (предвари¬ 
тельный вариант этого стандарта был выпущен в середине 2012 года). 

Основные строительные блоки разметки НТМЬ называются элемен¬ 
тами . Элементы записываются с помощью тегов , которые окружа¬ 
ются угловыми скобками. Обычно элементы имеют как открываю¬ 
щий тег (например, <Гі1:т1>), так и закрывающий (например, </М1т1>). 
Открывающий тег элемента может содержать атрибуты , которые 
будут описаны позже. Между тегами находится содержимое элемен¬ 
та, которое может состоять из текста и других элементов или оста¬ 
ваться пустым. Элементы могут вкладываться друг в друга, но они 
не могут перекрываться (например, <сііѵ><сііѵ></с 1 іѵх/сі іѵ> - это допус¬ 
тимое взаиморасположение элементов, а <с!іѵ><зрап></с]іѵ></зрап> - 
нет). Для некоторых элементов (таких как <р>, который обозначает 
абзац) закрывающий тег является необязательным. Имеется не¬ 
сколько элементов (включая <Ьг>, завершающий строку), которые не 
имеют содержимого и никогда не используют закрывающие теги. 
Однако даже пустой элемент может иметь атрибуты. Теги пустых 
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элементов допускается завершать последовательностью символов />, 
например <Ьг/>. Имена элементов НТМЬ начинаются с символов А-2. 
Во всех допустимых именах элементов используются только буквы 
и цифры. Имена элементов нечувствительны к регистру символов. 

Элементы <зсгір1:> и <з1:у1е> заслуживают особого внимания, потому 
что позволяют встраивать в документы программный код на языке 
сценариев и таблицы стилей. Эти элементы закрываются ближай¬ 
шим вхождением закрывающих тегов </з1:у1е> или </зсгір1:>, даже 
если они присутствуют внутри комментария или строки, в пределах 
описания стиля или программного кода. 

Атрибуты определяются внутри открывающего тега элемента, сразу 
же вслед за его именем, и отделяются одним или несколькими про¬ 
бельными символами. Большинство атрибутов записываются в виде 
пар имя-значение. В следующем примере показан элемент <а> (ап- 
сЬог - якорь) с двумя атрибутами и содержимым «СИск те!»: 

<а Гі ге^=" Із1:1:ргедехсоокЬоок. сот” 

Шіе = 'Яедех СоокЬоок’ >С1іск те! </а> 

Как видно из этого примера, имя атрибута и значение отделяются 
друг от друга знаком равенства и необязательным пробельным сим¬ 
волом. Значение заключается в апострофы или в кавычки. Чтобы ис¬ 
пользовать в значениях атрибутов кавычки того же типа, что и объ¬ 
емлющие, необходимо использовать ссылки на символы (описыва¬ 
ются ниже). Значения атрибутов можно не заключать в кавычки или 
апострофы, если они не содержат кавычки, апострофы, тяжелые 
ударения, знаки «равно», «меньше», «больше» или пробельные сим¬ 
волы (в виде регулярного выражения это требование выглядит так: 
<~[ =о\з]+$>). Некоторые атрибуты (такие как зеІесЕесІ и сНескесІ, 

используемые некоторыми элементами форм) оказывают воздейст¬ 
вие на элемент, содержащий их, уже своим присутствием и не требу¬ 
ют указывать значение. В таких случаях знак равенства, отделяю¬ 
щий имя атрибута от значения, также опускается. Как вариант, 
в качестве значений таких «минимизированных» атрибутов допус¬ 
кается использовать их имена (например, зеіесііесі-'зеіес^есг). Име¬ 
на атрибутов начинаются с символов А-2. Во всех допустимых име¬ 
нах атрибутов используются только буквы, дефисы и двоеточия. Ат¬ 
рибуты могут следовать в любом порядке, а их имена нечувствитель¬ 
ны к регистру символов. 

Стандарт НТМЬб определяет более 2000 мнемонических ссылок на 
символы 1 и более миллиона числовых ссылок на символы (все вме¬ 
сте мы будем называть их ссылками на символы). Числовые ссылки 
на символы определяют соответствующие им символы с помощью 


1 Для многих символов определено более одного мнемонического имени 
в НТМЬб. Например, символ ~ имеет шесть имен: &азутр;, &ар;, &арргох;, 
&Ыпкар:, &1:Шскарргох; и &Ті1с1еТі1сіе;. 
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кодовых пунктов Юникода и записываются в формате Шпппп\ или 
&#х/?Ш7;, где пппп - это одна или более десятичных цифр в диапазоне 
0-9, а /?/? / 7/7 - это одна или более шестнадцатеричных цифр в диапазо¬ 
не 0-9 и А-Е (без учета регистра символов). Мнемонические ссылки 
на символы записываются в формате Ьимямнемоники ; (с учетом регист¬ 
ра символов, в отличие от большинства других аспектов языка 
НТМЬ) и особенно удобны, когда требуется ввести литерал символа, 
имеющего специальное назначение в некоторых контекстах, напри¬ 
мер угловые скобки (&П; и &д1;), кавычки (&диоІ;) и амперсанд (&атр;). 

Также часто используется мнемоника &пЬзр; (неразрывный пробел, 
код ОхАО), удобство которой обусловлено тем, что в представлении до¬ 
кумента НТМЬ отображаются все вхождения этого символа, даже ес¬ 
ли они следуют друг за другом. Пробелы, символы табуляции, разры¬ 
вы строк обычно отображаются как единственный пробельный сим¬ 
вол, даже если подряд следует множество таких символов. Ампер¬ 
санд (&) не может использоваться иначе как в ссылках на символы. 

Комментарии в разметке НТМЬ оформляются следующим образом: 

<!-- это комментарий --> 

<!-- это тоже комментарий, но он располагается 
на нескольких строках --> 

Содержимое комментария не имеет специального значения и не ото¬ 
бражается средствами просмотра. Для совместимости с ранними (до 
1995 года) браузерами некоторые разработчики окружают коммен¬ 
тариями НТМЬ содержимое элементов <зсгірІ> и <з1у1е>. Современ¬ 
ные браузеры игнорируют такие комментарии и обрабатывают сце¬ 
нарии или таблицы стилей обычным образом. 

Документы НТМЬ часто начинаются с объявления типа докумен¬ 
та (неофициально ИОСТУРЕ), которое содержит спецификацию 
допустимого и недопустимого содержимого документа. Объявление 
БОСТУРЕ по своему виду напоминает элемент НТМЬ, как видно 
в следующей строке, используемой для документов, строго следую¬ 
щих определению НТМЬ 4.01 81гіс1: 

<! йОСТУРЕ Шті РУВПС "-//МЗС//0Ю НТМ1_ 4.01//ЕГ 

ѵѵЗ. о гд/ТР/01:т14/з1: гісі: . сііісі ”> 

Ниже приводится объявление БОСТУРЕ в НТМЬб: 

<тостѵРЕ тті> 

Наконец, в НТМЬб допускается вставлять в документ разделы СБАТА , 
но только внутри встроенного содержимого МаЬЬМЬ и 8ѴО. Поддерж¬ 
ка разделов СБАТА была заимствована из ХМЬ и используется для 
экранирования блоков текста. Такие блоки начинаются с последова¬ 
тельности символов <![С0АТА[ и заканчиваются первым вхождением 
последовательности ]]>. 



Обработка разметки и данных в различных форматах 


607 


Такова, в двух словах, физическая структура документа НТМЬ. 1 
Помните, что в действительности разметка НТМЬ часто изобилует от¬ 
клонениями от этих правил, которые успешно распознаются боль¬ 
шинством браузеров. Кроме того, следует отметить, что каждый эле¬ 
мент накладывает свои ограничения на содержимое и внутренние 
атрибуты, при использовании которых документ НТМЬ рассматри¬ 
вается как допустимый. Рассмотрение подобных правил, предъяв¬ 
ляемых к содержимому, выходит далеко за рамки этой книги, но из¬ 
дательство О’КеіИу выпустило книгу Чака Муссиано (Сішск Мизсіа- 
по) и Билла Кеннеди (ВШ Кеппейу) «НТМЬ & ХНТМЬ: ТЬе БейпШѵе 
Соіісіе» 2 , которая является отличным источником этой информации. 

Так как по своей структуре разметка НТМЬ очень похожа на раз- 
метку ХНТМЬ и ХМЬ (описываются ниже), многие регулярные 
выражения в этой главе написаны так, чтобы обеспечить под¬ 
держку всех трех языков разметки. 

Расширяемый язык разметки гипертекста (ЕхіепзіЫе Нурегіехі Магк- 
ир Ьап§иаёе у ХНТМЬ) 

Язык ХНТМЬ разрабатывался как дальнейшее развитие НТМЬ 4.01 
с целью ухода от связи НТМЬ с 8СМЬ и перехода на основы ХМЬ. Од¬ 
нако развитие НТМЬ продолжается независимо. В настоящее время 
ХНТМЬб развивается как часть спецификации НТМЬб и будет пред¬ 
ставлять собой ХМЬ-совместимую версию НТМЬб без введения но¬ 
вых особенностей. В этой книге охватываются версии ХНТМЬ 1.0,1.1 
и б. 3 Несмотря на то что синтаксис ХНТМЬ во многом сохраняет об¬ 
ратную совместимость с НТМЬ, тем не менее существует несколько 
важных отличий от структуры НТМЬ, описанной выше: 

• Документы ХНТМЬ могут начинаться с объявления ХМЬ , такого 

как <?хт1 ѵегзіоп="1.0" епсосИпд="11ТР-8"?>. 


1 Стандарт НТМЬ 4.01 определяет поддержку некоторых необычных особен¬ 
ностей 8СМЬ, включая инструкции обработки (синтаксис которых отлича¬ 
ется от синтаксиса ХМЬ) и сокращенные элементы разметки, но не реко¬ 
мендует пользоваться ими. В этой главе мы будем действовать так, как если 
бы этой поддержки не существовало вовсе, потому что браузеры поступают 
точно так же и не реализуют эту поддержку. При желании вы можете по¬ 
знакомиться с этими синтаксическими особенностями в приложении В спе¬ 
цификации НТМЬ 4.01, в разделах В.3.5-7. Стандарт НТМЬб явно ликви¬ 
дировал поддержку этих особенностей, которые все равно не используются 
браузерами. 

2 Чак Муссиано, Билл Кеннеди «НТМЬ и ХНТМЬ. Подробное руководство», 
6-е издание. - Пер. с англ. - СПб.: Символ-Плюс, 2008. 

3 Что касается пропущенных версий: спецификация ХНТМЬ 2.0 разрабаты¬ 
валась консорциумом \ѴЗС в течение нескольких лет, после чего работы над 
ней были прекращены в пользу НТМЬ5. Версии ХНТМЬ 3 и 4 были просто 
пропущены. 


,м * 
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• Непустые элементы должны завершаться закрывающими тега¬ 
ми. Пустые элементы должны иметь закрывающий тег или окан¬ 
чиваться последовательностью />. 

• Имена элементов и атрибутов чувствительны к регистру и долж¬ 
ны записываться символами нижнего регистра. 

• Благодаря использованию префиксов пространства имен ХМЬ 
имена элементов и атрибутов могут помимо символов, допусти¬ 
мых в именах элементов и атрибутов НТМЬ, содержать двоеточие. 

• Не допускается использование значений атрибутов, не заключен¬ 
ных в кавычки. Значения атрибутов должны окружаться кавыч¬ 
ками или апострофами. 

• Все атрибуты должны иметь соответствующие им значения. 

Между НТМЬ и ХНТМЬ существует еще ряд различий, которые каса¬ 
ются в основном крайних случаев и обработки ошибок, но в большин¬ 
стве своем не оказывают влияния на регулярные выражения в этой 
главе. Дополнительную информацию о различиях между НТМЬ 
и ХНТМЬ можно найти по адресу Мір://ияѵіи.іи3.ог8/ТВ/хкіт11/#(ІіН§ 
и кИр://іѵікі.и)каііѵ§.ог§/іиікі/НТМЬ_ѵ8._ХНТМЬ. 


Синтаксис языка разметки ХНТМЬ является подмножеством 
синтаксиса НТМЬ (и НТМЬб) и следует правилам языка ХМЬ, 
поэтому многие регулярные выражения в этой главе написаны 
так, чтобы обеспечить поддержку всех трех языков разметки. 
Рецепты, в которых упоминается «(Х)НТМЬ», в равной степени 
относятся к НТМЬ и ХНТМЬ. Как правило, бывает желательно 
избежать зависимости от использования соглашений только 
языка НТМЬ или только ХНТМЬ, поскольку они часто смешива¬ 
ются между собой в документах и веб-браузеры обычно воспри¬ 
нимают такую смесь. 

Расширяемый язык разметки (ЕхіепзіЫе Магкир Ьапдиа^е, ХМЬ) 

Язык ХМЬ - это многоцелевой язык, предназначенный, в первую 
очередь, для обмена структурированными данными. Он использует¬ 
ся как основа для создания широкого диапазона языков разметки, 
включая ХНТМЬ, который только что рассматривался. В этой книге 
охватываются версии ХМЬ 1.0 и 1.1. Полное описание особенностей 
языка ХМЬ и его грамматики выходит далеко за рамки этой книги, 
но применительно к нашему случаю существует всего несколько 
важных отличий от синтаксиса языка НТМЬ, описанного выше: 

• Документы ХМЬ могут начинаться с объявления ХМЬ, такого 
как <?хт1 ѵегзіоп-’І.О" епсосІіпд="ІІТР-8"?>, и содержать другие ин¬ 
струкции по обработке, имеющие похожий формат. Например, 
инструкция <7хт1-з1:у1езГіее1: Ьуре="1;ех1:/хз1” ІчгеГ=" 1 гап 5 Гогт.хзГГ?> 
указывает, что к документу должен применяться файл ігапз- 
Іогт.хзіі преобразований Х8Ь. 




& 


-а* 




Обработка разметки и данных в различных форматах 


609 


• Объявление БОСТУРЕ может включать внутренние объявления, 
заключенные в квадратные скобки. Например: 

<Ю0СТѴРЕ ехатріе [ 

<! ЕШТѴ сору "&#169; "> 

<! ЕИТІТУ соругідШ-псЦісе "Сору гідізі: &сору; 2012, 0’ Яеіііу "> 

]> 

• Непустые элементы должны иметь закрывающий тег. Пустые 
элементы должны либо иметь закрывающий тег, либо оканчи¬ 
ваться символами />. 

• Имена в языке ХМЬ (которые подчиняются правилам, применяе¬ 
мым к именам элементов, атрибутов и мнемонических ссылок) 
чувствительны к регистру символов и могут использовать симво¬ 
лы Юникода. В число допустимых символов входят А-2, а- 2 , 
двоеточие и символ подчеркивания, а после первого символа так¬ 
же допускается использовать 0-9, дефис и точку. Подробнее об 
этом рассказывается в рецепте 9.4. 

• Употребление значений атрибутов без кавычек не допускается. 
Значения атрибутов должны заключаться в апострофы или в ка¬ 
вычки. 

• Все атрибуты должны сопровождаться значениями. 

Существует множество других правил, которых следует придержи¬ 
ваться, чтобы обеспечить создание правильно оформленных доку¬ 
ментов ХМЬ или, если возникнет необходимость, создать свой собст¬ 
венный парсер ХМЬ. Однако только что описанных правил (в допол¬ 
нение к структуре документов НТМЬ, которая была описана выше) 
обычно бывает вполне достаточно для реализации простых регуляр¬ 
ных выражений. 


Так как синтаксис ХМЬ очень похож на синтаксис НТМЬ и со¬ 
ставляет основу разметки ХНТМЬ, многие регулярные выраже¬ 
ния в этой главе написаны так, чтобы обеспечить поддержку всех 
трех языков разметки. Рецепты, в которых упоминается «ХМЬ», 
в равной степени относятся к языкам ХМЬ, ХНТМЬ и НТМЬ. 

Значения, разделенные запятыми (Сотта-Зерагаіед Ѵаіиез, С8Ѵ) 

С8Ѵ - это старый, но все еще широко применяемый формат файлов, 
используемый для представления табличных данных. Формат С8Ѵ 
поддерживается большинством приложений электронных таблиц 
и систем управления базами данных и пользуется большой популяр¬ 
ностью при организации обмена данными между приложениями. Не¬ 
смотря на отсутствие какой-либо официальной спецификации фор¬ 
мата С8Ѵ, в октябре 2005 года была предпринята попытка дать ему 
общее определение в документе КЕС 4180, а кроме того, этот формат 
был зарегистрирован организацией ІАЫА как тип МІМЕ «іехі/сзу». 
До публикации указанного документа КЕС стандартом де-факто счи- 
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тались соглашения, используемые в МісгозоН Ехсеі. Так как КГС 
определяет правила, очень похожие на те, что используются про¬ 
граммой Ехсеі, такое положение вещей не представляет большой 
проблемы. Эта глава охватывает формат С8Ѵ, определяемый доку¬ 
ментом НЕС 4180 и используемый приложением МісгозоН Ехсеі 2003 
и более поздних версий. 

Как следует из названия, файлы в этом формате содержат список зна¬ 
чений, известных как записи полей , разделенных запятыми. Каж¬ 
дая строка, или запись , располагается в одной текстовой строке. За 
последним полем в записи символ запятой не указывается. За по¬ 
следней записью в файле может следовать разрыв строки. Все запи¬ 
си в файле должны содержать одинаковое число полей. 

Значение каждого поля в формате С8Ѵ может заключаться в кавыч¬ 
ки. Кроме того, поля вообще могут быть пустыми. Любое поле, со¬ 
держащее запятые, кавычки или разрывы строк, должно заклю¬ 
чаться в кавычки. Кавычки внутри поля должны экранироваться 
другой, предшествующей ей, кавычкой. 

Первая запись в файле С8Ѵ иногда используется как заголовок, со¬ 
держащий имена всех столбцов. Это невозможно определить про¬ 
граммным способом исходя из содержимого файла С8Ѵ, поэтому не¬ 
которые приложения предлагают пользователю указать, как следу¬ 
ет интерпретировать первую строку. 

Документ КГС 4180 определяет, что начальные и конечные пробелы 
в значениях поля являются частью значения. В некоторых старых 
версиях Ехсеі эти пробелы игнорируются, но Ехсеі 2003 и более 
поздние версии следуют этому указанию КГС. Документ КГС не опре¬ 
деляет порядок обработки ошибок, связанных с наличием неэкрани- 
рованных кавычек или с чем-то другим. В редких случаях обработка 
этой ошибки, выполняемая в Ехсеі, может приводить к непредска¬ 
зуемым результатам, поэтому очень важно гарантировать экраниро¬ 
вание кавычек. Поля, содержащие кавычки, сами должны заклю¬ 
чаться в кавычки, а поля в кавычках не должны содержать началь¬ 
ных или конечных пробелов за пределами кавычек. 

Ниже приводится пример фрагмента в формате С8Ѵ, демонстрирую¬ 
щий многие из правил, которые мы только что рассмотрели. Он со¬ 
держит две записи с тремя полями в каждой: 

ааа, Ь Ь,.с'"’ сс” 

1,, ’ ЗЗЗ, 1:Іі гее, 

31:111 тоге ІГі геез” 

В табл. 9.1 только что продемонстрированный фрагмент С8Ѵ отобра¬ 
жается более наглядно. 

Несмотря на то что мы описали правила С8Ѵ, которые учитываются 
в рецептах этой главы, существует огромное количество вариаций 
того, как различные программы читают и записывают файлы С8Ѵ. 
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Многие приложения даже позволяют в файлах с расширением «сзѵ» 
использовать в качестве разделителей полей не только запятые, но 
и другие символы. В число других типичных отклонений входит по¬ 
рядок включения запятых (или других разделителей полей), кавы¬ 
чек и разрывов строк в значения полей и порядок интерпретации на¬ 
чальных и завершающих пробелов в полях без кавычек - они могут 
игнорироваться или интерпретироваться как литералы. 

Таблица 9.1. Пример отображения фрагмента в формате С8Ѵ 


ааа Ь Ь "с" сс 

1 (пустое поле) 333, 1:0гее, 

31:111 тоге 1:0 геез 


Файлы инициализации (ШІ) 

Простой формат ШІ часто используется для оформления файлов 
с настройками. Этот формат плохо определен, и в результате сущест¬ 
вует масса вариантов интерпретации этого формата различными 
программами и системами. Регулярные выражения в этой главе 
придерживаются наиболее распространенных соглашений по оформ¬ 
лению файлов ШІ, которые описываются ниже. 

Параметры в файле ШІ - это пары имя-значение, разделяемые зна¬ 
ком равенства, с возможными дополнительными пробелами и сим¬ 
волами табуляции. Значения могут заключаться в апострофы или 
кавычки, что позволяет включать в значения начальные и конечные 
пробелы и другие специальные символы. 

Параметры могут группироваться в разделы , которые начинаются 
с имени раздела, заключенного в квадратные скобки и находящего¬ 
ся в отдельной строке. Раздел простирается, пока не будет встречено 
объявление следующего раздела или конец файла. Разделы не могут 
быть вложенными. 

Точка с запятой отмечает начало комментария , который простира¬ 
ется до конца строки. Комментарии могут присутствовать в строках 
с параметрами или объявлениями разделов. Содержимое коммента¬ 
риев не имеет никакого значения. 

Ниже приводится пример файла ШІ с вводным комментарием (отме¬ 
чающим дату последнего изменения файла), двумя разделами («изег» 
и «розѣ») и тремя параметрами («пате», «1Ше» и «сопіепі»): 

; Іазі тосІі'Гіесі 2012-02-14 
[изег] 

пате=0. Вапсіот Наскег 
[рОЗІ] 

Ііііе = Ведиіаг Ехргеззіопз Воск! 
сопіепі: = 'Те! те соипі: ІРе ѵѵауз..." 
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9.1. Поиск тегов ХМІ_ 

Задача 

Требуется обеспечить совпадение с любыми тегами НТМЬ, ХНТМЬ или 
ХМЬ, присутствующими в тексте, с целью удалить, изменить, подсчи¬ 
тать их количество или выполнить какие-либо другие операции. 

Решение 

Самое лучшее решение зависит от нескольких факторов, включая точ¬ 
ность, эффективность и терпимость к приемлемым для вас ошибкам 
в разметке. Определившись с требованиями, предъявляемыми к кон¬ 
кретной ситуации, можно перейти к определению перечня того, что хо¬ 
телось бы сделать с результатами. Неважно, предполагается ли удалять 
теги, выполнять поиск внутри них, добавлять или удалять атрибуты 
или заменять теги альтернативной разметкой, - в любом случае снача¬ 
ла нужно отыскать их. 

Имейте в виду, что это будет длинный рецепт, полный тонкостей, ис¬ 
ключений и вариаций. Если вы ищете быстрое решение и не желаете 
затрачивать усилия на поиск решения, наилучшим образом отвечаю¬ 
щего вашим потребностям, возможно, вам стоит сразу перейти к разде¬ 
лу «Теги (Х)НТМЬ (не строго)» этого рецепта, где предлагается реше¬ 
ние, сочетающее в себе приличную устойчивость к ошибкам в разметке 
и строгость подхода. 

На скорую руку 

Это решение является самым простым и используется гораздо чаще, 
чем можно было бы предположить, но оно включено сюда больше для 
сравнения и объяснения его недостатков. Оно может быть достаточно 
хорошим, если заранее известно, с какого рода содержимым придется 
работать, и последствия неправильной обработки не причинят сущест¬ 
венных хлопот. Это регулярное выражение совпадает с символом <, 
а затем просто продолжает поглощать любые символы до первого встре¬ 
ченного символа >: 

<[">]*> 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірі;, РСКЕ, Регі, РуЙюп, КиЬу 

Допускается наличие символа > в значениях атрибутов 

Следующее регулярное выражение тоже достаточно простое; оно дает 
корректные результаты не во всех случаях. Однако оно прекрасно справ¬ 
ляется с возложенной на него задачей, если используется только для 
обработки фрагментов допустимой разметки (Х)НТМЬ. Его преимуще¬ 
ство перед предыдущим регулярным выражением состоит в том, что 
оно корректно проходит символы > в значениях атрибутов: 
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Параметры: нет 

Диалекты: .МЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Ниже приводится это же регулярное выражение, дополненное коммен¬ 
тариями и отступами для большей удобочитаемости: 

< 

(?: # Символ не в кавычках или... 

| # Значение атрибута в кавычках или... 

| # Значение атрибута в апострофах 

)* 

> 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, Лѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

Оба эти регулярных выражения работают идентично, поэтому у себя 
можно использовать любое из них. Те, кто пишут на ЛѵаЗсгірІ (без при¬ 
менения библиотеки ХКе&Ехр), смогут воспользоваться только первым 
вариантом, потому что в ^ѵаЗсгірі; отсутствует поддержка режима сво¬ 
бодного форматирования. 

Теги (Х)НТМІ (не строго) 

Помимо поддержки символов > в значениях атрибутов следующее регу¬ 
лярное выражение имитирует поведение браузеров, которые обычно реа¬ 
лизуют не очень строгие требования к именам тегов (Х)НТМЬ. Это позво¬ 
ляет регулярному выражению обходить содержимое, которое не выгля¬ 
дит как теги, включая комментарии, объявления БОСТУРЕ и литералы 
символов < в тексте. С этой целью в регулярное выражение было добав¬ 
лено два основных изменения. Во-первых, дополнительная обработка, 
помогающая обнаруживать начало и конец значения атрибута, напри¬ 
мер, при наличии кавычек внутри значения атрибута, не заключенного 
в кавычки. Во-вторых, специальная обработка имени тега, требующая, 
в частности, чтобы имя начиналось с буквы А-2. Имя тега сохраняется 
в обратной ссылке 1 на тот случай, если его потребуется извлечь: 

</?([А-2а-2]['*\з>/]*)(? :=\з*(? I ’ I [~\з>] + ) |[~> ])*(?:>!$) 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 


То же выражение в режиме свободного форматирования: 


< 

/? # Разрешить закрывающие теги 

([А-2а-і][Л$>/]*) # Сохранить имя тега в обратной ссылке 1 
(?: # Обработка значения атрибута: 

= \з* # Сообщает о начале значения атрибута 

(?: # Значение атрибута в кавычках 

| # Значение атрибута в апострофах 

I [~\з>]+ # Значение атрибута без кавычек 
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) 

| # Значение, не относящееся к атрибуту: 

[~>] # Символ за пределами значения атрибута 

) * 

(?:>|$) # Конец тега или строки 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

Оба эти регулярных выражения работают идентично, хотя второй ва¬ 
риант не может использоваться в диалекте ^ѵаЗсгір! (без использова¬ 
ния библиотеки ХКе&Ехр), так как в нем отсутствует поддержка режи¬ 
ма свободного форматирования. 

Теги (Х)НТМ1_ (строго) 

Это регулярное выражение более сложное, чем те, что приводились вы¬ 
ше, потому что оно фактически следует правилам оформления тегов 
(Х)НТМЬ, описанным во вводном разделе этой главы. Это не всегда бы¬ 
вает желательно, так как браузеры не строго следуют этим правилам. 
Другими словами, данное регулярное выражение не будет совпадать 
с содержимым, которое не выглядит как допустимый тег (Х)НТМЬ, что 
в результате может приводить к потере части содержимого, которое 
браузерами интерпретируется как тег (например, если в разметке ис¬ 
пользуется имя атрибута, включающее недопустимые символы, или ес¬ 
ли атрибуты включены в закрывающий тег). Здесь одновременно со¬ 
блюдаются правила оформления тегов НТМЬ и ХНТМЬ, так как для 
них характерно смешивание соглашений. Имя тега сохраняется в об¬ 
ратной ссылке 1 или 2 (в зависимости от типа тега - открывающий или 
закрывающий) на тот случай, если его потребуется извлечь: 

<(?:( [А-2][-:А-20-9]*)(?:\з+[А-2][-:А-20-9]*(?:\з*=\з*(? ]*"М 

’[-•]*•|[ - =<>\з]+))?)*\з*/?І/([А-2П[-:А-20-9]*)\з*)> 

Параметры: нечувствительность к регистру символов 
Диалекты: ^ЕТ, ^ѵа, ^ѵаВсгірѣ, РСКЕ, Регі, РуЙюп, КиЪу 

Чтобы сделать выражение менее загадочным, ниже приводится это же 
выражение в режиме свободного форматирования с комментариями: 

< 

(?: # Вариант выбора для открывающих тегов: 

([А-2][-:А-20-9]*) # Сохранить имя открывающего тега в обратной ссылке 1 
(?: # Позволить присутствие нуля или более атрибутов, 

\з+ # разделенных пробельными символами 

[А-2][-:А-20-9]* # Имя атрибута 

(?: \з*-\з* # Разделитель имени-значения в атрибуте 

(?: # Значение атрибута в кавычках 

| # Значение атрибута в апострофах 

| [--■ *=<>\з]+ # Значение атрибута без кавычек (НТМІ_) 

) 

)? 

)* 


# Позволить атрибуты без значений (НТМІ_) 
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\5* 

/? 

/ 

([А-2][-:А-20-9]*) 

\з* 


# Позволить завершающие пробельные символы 

# Позволить самозакрывающиеся теги 

# Вариант выбора для закрывающих тегов: 

# Сохранить имя закрывающего тега в обратной ссылке 2 

# Позволить завершающие пробельные символы 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЬу 


Теги ХМІ_ (строго) 

Язык ХМЬ имеет очень точные спецификации, и это означает, что поль¬ 
зовательские программы должны строго следовать его правилам. Это 
существенное отличие от НТМЬ и многострадальных браузеров, обыч¬ 
но используемых для его обработки. По этой причине для ХМЬ мы 
включили только «строгую» версию: 

<(? : ([_'• А-2][-. :\м]*)(? :\з+[_: А-2][-. :>/]*\з*=\5*(? : "Г"]*" I ' Г' ]* ’ ) )*\зО 
П !/([_:А-2][-.:\и]*)\з*)> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 


И снова это же регулярное выражение в режиме свободного форматиро¬ 
вания с дополнительными комментариями: 


< 


([_:А-2][-.:\и]*) 
(?: 

\з+ 

[_: А-2 ][-.:\и]* 
\з*=\з* 

I 'Г’К 

) 

)* 

\з* 

/? 

/ 

([_:А-2][-.:\и]*) 

\з* 


# Вариант выбора для открывающих тегов: 

# Сохранить имя открывающего тега в обратной ссылке 1 

# Позволить присутствие нуля или более атрибутов, 

# разделенных пробельными символами 

# Имя атрибута 

# Разделитель имени-значения в атрибуте 

# Значение атрибута в кавычках 

# Значение атрибута в апострофах 

# Позволить завершающие пробельные символы 

# Позволить самозакрывающиеся теги 

# Вариант выбора для закрывающих тегов: 

# Сохранить имя закрывающего тега в обратной ссылке 2 

# Позволить завершающие пробельные символы 


> 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЬу 
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Подобно предыдущему решению, предназначенному для поиска тегов 
(Х)НТМЬ, эти регулярные выражения сохраняют имя тега в обратной 
ссылке 1 или 2 в зависимости от типа совпавшего тега - открываю¬ 
щий или закрывающий. Регулярное выражение, совпадающее с тега¬ 
ми ХМЬ, немного короче, чем версия для (Х)НТМЬ, потому что здесь не 
приходится иметь дело с особенностями, характерными только для раз¬ 
метки НТМЬ (минимизированные атрибуты и значения без кавычек). 
Кроме того, оно допускает использовать в именах элементов и атрибу¬ 
тов более широкий диапазон символов. 


Обсуждение 

Некоторые предостережения 


Несмотря на то что достаточно часто возникает потребность произво¬ 
дить поиск ХМЬ-подобных тегов с помощью регулярных выражений, 
для обеспечения надежности требуется сбалансированность и внима¬ 
тельное отношение к данным, с которыми предстоит работать. Из-за 
этих сложностей некоторые стараются воздерживаться от использова¬ 
ния регулярных выражений при работе с различными разновидностя¬ 
ми разметки ХМЬ или (Х)НТМЬ, предпочитая специализированные 
парсеры и функции. Такой подход необходимо иметь в виду, потому что 
эти инструменты обычно оптимизированы и часто включают устойчи¬ 
вые механизмы определения или обработки некорректной разметки. 
В мире браузеров, например, для манипулирования разметкой НТМЬ, 
как правило, лучше воспользоваться преимуществами древовидной 
объектной модели документа (Босшпепі; ОЬ^есѣ Мойеі, БОМ). В других 
случаях можно было бы воспользоваться парсером 8АХ или ХРаЙі. Од¬ 
нако время от времени возникают ситуации, когда решения на базе ре¬ 
гулярных выражений работают просто прекрасно и их использование 
имеет определенный смысл. 


* * Чтобы стерилизовать разметку НТМЬ, полученную из источника, 

не вызывающего доверия, и обезопасить себя от специально подго- 
4 * товленной злонамеренной разметки и атак вида «межсайтовый 

скриптинг» (Х88), в первую очередь следует преобразовать все сим¬ 
волы <, > и & в соответствующие им мнемоники (&11:;, &д1і; и &атр;), за¬ 
тем вернуть обратно теги, которые, как известно, являются безопас¬ 
ными (при условии, что они не содержат атрибутов или используют 
только разрешенные атрибуты). Например, чтобы вернуть на место 
теги <р>, <ет> и <з1:гопд> без атрибутов после замены символов <, > и & 
их мнемониками, достаточно выполнить поиск с заменой с исполь¬ 
зованием регулярного выражения <&11:;(/?)(р|ет|з1:гопд)&д1:;> и заме¬ 
нить совпадения замещающим текстом «<$1$2>» (или «<\1\2>» 
в РуІЬоп и КиЪу). Затем в измененной строке можно безопасно вы¬ 
полнить поиск тегов НТМЬ с применением регулярных выражений, 
описываемых в этом рецепте. 
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Учтя эту «реплику в сторону», приступим к анализу регулярных выра¬ 
жений, которые приведены в этом рецепте. Первые два решения для 
большинства случаев оказываются чересчур упрощенными, но ХМЬ- 
подобные языки разметки они обрабатывают одинаково. Последние три 
следуют более строгим правилам и ориентированы на соответствую¬ 
щие языки разметки. Однако даже в последних решениях обрабатыва¬ 
ются теги как НТМЬ, так и ХНТМЬ, потому что они часто смешивают¬ 
ся в одном документе, нередко по неосторожности. Например, автор 
может использовать самозакрывающийся тег <Ьг /> из ХНТМЬ в доку¬ 
менте НТМЬ4 или по ошибке использовать символы верхнего регистра 
в именах элементов в документе ХНТМЬ. НТМЬб еще больше стирает 
грань между синтаксисом НТМЬ и ХНТМЬ. 

На скорую руку 

Преимущество этого решения заключается в его простоте, благодаря 
которой выражение легко запоминается и вводится, а кроме того, быст¬ 
ро работает. Цена этой простоте - некорректная обработка некоторых 
допустимых и недопустимых конструкций ХМЬ и (Х)НТМЬ. Если вы 
работаете с разметкой, которую пишете сами, и знаете, что появление 
таких конструкций в вашем испытуемом тексте невозможно, или если 
вас не беспокоят последствия ошибок, такая цена может быть вполне 
приемлемой. Другой пример, когда это решение может оказаться под¬ 
ходящим, - если вы работаете с текстовым редактором, позволяющим 
предварительно просмотреть совпадения с регулярным выражением. 

Регулярное выражение начинается с литерала «> (совпадающего с на¬ 
чалом тега). Далее следует инвертированный символьный класс и мак¬ 
симальный квантификатор звездочка <[~>]*>, которые обеспечивают 
совпадение с нулем или более следующих далее символов, отличных от 
>. Им соответствуют имя тега, атрибуты и ведущий или замыкающий 
символ /. Здесь можно было бы использовать минимальный квантифи¬ 
катор (<[~>]*?>), но это не даст ничего, кроме замедления работы регуляр¬ 
ного выражения, потому что в этом случае возникает большее число 
возвратов (причина описывается в рецепте 2.13). Конец тега в регуляр¬ 
ном выражении сопоставляется с литералом <>>. 

Если вы предпочитаете использовать точку вместо инвертированного 
символьного класса <[~>]>, это вполне возможно. Точка будет прекрасно 
выполнять свои функции при условии, что вместе с ней будет использо¬ 
ваться минимальная звездочка (<.*?>) и будет активирован режим «точ¬ 
ке соответствуют границы строк» (в диалекте ЗаѵаЗсгірі; вместо точки 
можно применить конструкцию <[\з\3]*?>). Точка с максимальной звез¬ 
дочкой (шаблон <<.*>>) изменяет смысл регулярного выражения, вынуж¬ 
дая его некорректно совпадать со всем подряд от первого символа < до 
самого последнего символа > в испытуемом тексте, даже если для этого 
регулярному выражению придется попутно поглотить многочисленные 
теги. 
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Настало время обратиться к примерам. Регулярное выражение из раз¬ 
дела «На скорую руку» будет совпадать с каждой из следующих строк 
текста целиком: 

• <СІІѴ> 

• </с!іѵ> 

• <с!іѵ с1а53=”Ьох"> 

• <с!іѵ ісІ="рапсІогаз-Ьох’' с1азз="Ьох’’ /> 

• <!-- соттеггЕ --> 

• <!РОСТУРЕ Шт1> 

• « < ѵу/ООІі ! > 

• <> 

Следует заметить, что этот шаблон совпадает не только с тегами. Ху¬ 
же того, он не сможет правильно найти совпадение с целыми тегами 
<іпри1:> в испытуемых строках <іприІ Ііуре-'ЬиІіІіоп" ѵа1ие="»"> или <іприІ 
Іуре-'ЬиІіІоп" опс1іск=”а1егі:(2 > 1)”>. Вместо этого регулярное выражение 
обнаруживает совпадения только до первого символа >, который появ¬ 
ляется в значениях атрибутов. Аналогичные проблемы наблюдаются 
с комментариями, разделами СЭАТА в разметке ХМЬ, объявлениями 
БОСТУРЕ, с программным кодом в элементах <зсгір1:> и везде, где 
встречаются символы >. 

Если приходится обрабатывать что-то более сложное, чем самая про¬ 
стая разметка, особенно когда испытуемый текст происходит из разных 
или неизвестных источников, лучше воспользоваться одним из более 
надежных решений, которые приводятся далее в этом рецепте. 

Допускается наличие символа > в значениях атрибутов 

Следующее регулярное выражение, подобно только что описанному 
и созданному на скорую руку, включено, прежде всего, для сравнения 
с последующими более надежными решениями. Однако оно соблюдает 
самые основные правила, необходимые для сопоставления с ХМЬ-по- 
добными тегами, и поэтому может лучше соответствовать вашим по¬ 
требностям при обработке фрагментов допустимой разметки, включаю¬ 
щей только элементы и текст. Отличие от предыдущего выражения за¬ 
ключается в том, что оно пропускает символы >, встречающиеся в зна¬ 
чениях атрибутов. Например, оно будет корректно совпадать с целыми 
тегами <іпри1> в предыдущих примерах испытуемого текста: <іпри! 
Іуре-’Ьій'ЕогГ ѵа1ие="»"> и <іпрЩ 1:уре-’Ьи1:1:огГ опс1іск="а1ег1:(2 > 1)”>. 

Как и предыдущий вариант, это регулярное выражение начинается 
и заканчивается литералами символов угловых скобок, с которых на¬ 
чинается и заканчивается тег. В середине находится повторяющаяся 
несохраняющая группа, содержащая три альтернативы, разделенных 
оператором выбора < |>. 
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Безопасная(І) оптимизация эффективности 

После прочтения этого раздела может сложиться впечатление, что 
можно заставить регулярное выражение работать быстрее, добавив 
квантификатор <*> или <+> после первого инвертированного сим¬ 
вольного класса (<[''>’" ]>). В позициях в испытуемом тексте, где ре¬ 
гулярное выражение будет находить совпадение, это действитель¬ 
но так. Возможность совпадения сразу с несколькими символами 
за раз позволит механизму регулярных выражений пропускать 
большое число ненужных шагов на пути к успешному совпадению. 

Однако такое изменение может привести к менее очевидным отри¬ 
цательным последствиям в тех позициях, где механизм регуляр¬ 
ных выражений обнаруживает лишь частичное совпадение. Когда 
регулярное выражение обнаруживает совпадение с открывающим 
символом <, за которым не следует символ >, наличие которого 
обеспечило бы успешное завершение попытки сопоставления, воз¬ 
никает проблема «катастрофических возвратов», описанная в ре¬ 
цепте 2.15. Она обусловлена огромным числом способов объедине¬ 
ния внутреннего квантификатора с внешним (после несохраняю¬ 
щей группы) для сопоставления с текстом, следующим за симво¬ 
лом <, каждый из которых механизм регулярных выражений 
вынужден будет опробовать, прежде чем убедиться в безуспешно¬ 
сти попытки сопоставления. Будьте внимательны! 

В диалектах регулярных выражений, поддерживающих захваты¬ 
вающие квантификаторы или атомарную группировку (диалекты 
^ѵаБсгір! и РуІЬоп не поддерживают ни то, ни другое), можно из¬ 
бежать этой проблемы, пользуясь при этом преимуществами высо¬ 
кой производительности сопоставления сразу с несколькими сим¬ 
волами не в кавычках. Более того, есть возможность пойти еще 
дальше и уменьшить число потенциальных возвратов в другом 
месте регулярного выражения. Если используемый диалект регу¬ 
лярных выражений поддерживает обе возможности, лучше ис¬ 
пользовать захватывающие квантификаторы (показаны здесь во 
втором регулярном выражении), потому что они позволяют сохра¬ 
нить регулярное выражение более коротким и удобочитаемым. 

С атомарной группировкой: 

<(?>(?: (?>[->"* ]+) |"[-”]*”г’ ]*>)> 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, КиЪу 
С захватывающими квантификаторами: 

<(?:[">'” ]++Г[~"]*"| Т']*')*+> 

Параметры: нет 

Диалекты: ^ѵа, РСКЕ, Регі 5.10, КиЬу 1.9 
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Первая альтернатива- инвертированный символьный класс <[~ >’"]>, 
совпадающий с любым одиночным символом, отличным от правой уг¬ 
ловой скобки (которая закрывает тег), кавычки или апострофа (оба ти¬ 
па кавычек указывают на начало значения атрибута). Эта альтернатива 
отвечает за совпадение с именами тегов и атрибутов, а также с другими 
символами, находящимися за пределами значений в кавычках. Такой 
порядок следования альтернатив выбран намеренно для обеспечения 
более высокой производительности. Механизмы регулярных выраже¬ 
ний испытывают варианты в регулярном выражении в направлении 
слева направо, поэтому первым следует вариант, вероятность совпаде¬ 
ния с которым выше, чем вероятность совпадения с альтернативами 
для значений в кавычках (тем более что сопоставление производится по 
одному символу за раз). 

Далее следуют альтернативы для сопоставления со значениями атрибу¬ 
тов в кавычках и апострофах (<"[""]*"> и <’[~’]*’>). Использование инвер¬ 
тированных символьных классов в них позволяет продолжать сопо¬ 
ставление, невзирая на наличие символов >, разрывов строк и всего ос¬ 
тального, что не является закрывающей кавычкой. 

Следует отметить, что в этом решении не предусматривается никакой 
специальной обработки комментариев, что позволяло бы исключать 
комментарии или обеспечивать корректное совпадение с ними и с дру¬ 
гими специальными узлами в документе. Прежде чем применять это 
регулярное выражение, обязательно следует определить, содержимое 
какого вида требуется обработать. 

Теги (Х)НТМІ (не строго) 

Благодаря двум основным изменениям это регулярное выражение на¬ 
много ближе имитирует соблюдение свободных правил, которые ис¬ 
пользуют веб-браузеры при идентификации тегов (Х)НТМЬ в исходных 
текстах. Это решение хорошо подходит для ситуаций, когда необходи¬ 
мо копировать поведение браузера или алгоритм парсинга НТМБ5 и не 
приходится беспокоиться о том, действительно ли соответствуют сов¬ 
падающие теги всем правилам, определяющим допустимую разметку. 
Однако следует иметь в виду, что может попасться ужасающе недопус¬ 
тимая разметка НТМЬ, которую данное выражение не сможет обраба¬ 
тывать способом, похожим на тот, которым это делают браузеры, пото¬ 
му что синтаксический анализ крайних случаев ошибочной разметки 
в браузерах производится их собственными уникальными способами. 

Самое существенное отличие этого регулярного выражения от преды¬ 
дущего решения заключается в том, что оно требует, чтобы за левой уг¬ 
ловой скобкой (<) следовала буква в диапазоне А-2 или а- 2 , которой мо¬ 
жет предшествовать символ / (для закрывающих тегов). Это ограниче¬ 
ние исключает возможность совпадения со случайными символами < 
в тексте, а также с комментариями, с объявлениями БОСТУРЕ, с объ¬ 
явлениями и инструкциями обработки ХМЬ, с разделами СБАТА и т. д. 
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Этот прием не защищает от совпадения с чем-то, что выглядит как тег 
внутри комментариев, в программном коде на языке сценариев, в содер¬ 
жимом элементов <1:ехІагеа> и т. д. В разделе «Игнорирование необыч¬ 
ных разделов (Х)НТМЬ и ХМЬ» ниже показано, как обойти эту пробле¬ 
му. Но сначала рассмотрим, как работает это регулярное выражение. 

Символ <<> начинает совпадение с литерала левой угловой скобки. Кон¬ 
струкция </?>, следующая далее, совпадает с необязательным симво¬ 
лом слэша в закрывающих тегах. Далее следует сохраняющая группа 
<([А-2а-2]['Лз>/]*)>, совпадающая с именем тега и запоминающая его как 
обратную ссылку 1. Если ссылаться на имя тега не потребуется (напри¬ 
мер, когда нужно просто удалить все теги), сохраняющие круглые скоб¬ 
ки можно удалить (достаточно лишь сохранить шаблон, заключенный 
в них). Внутри группы имеются два символьных класса. Первый класс, 
<[А-2а-г]>, устанавливает правило первого символа в имени тега. Сле¬ 
дующий класс, <Г\з>/]>, допускает совпадение почти с любыми симво¬ 
лами, которые являются частью имени. Единственное исключение - 
пробельные символы (<\з>, которые отделяют имя тега от следующих за 
ним атрибутов), > (который заканчивает тег) и / (используемый перед за¬ 
вершающим символом > в единичных тегах ХНТМЬ). Любые другие 
символы (даже включая кавычки) интерпретируются как часть имени 
тега. Это может показаться слишком свободным требованием, но именно 
так действует большинство браузеров. Ошибочные теги могут не оказы¬ 
вать никакого влияния на способ отображения страницы, но они тем не 
менее будут доступны в дереве БОМ и не будут отображаться как текст, 
хотя любое содержимое, имеющееся внутри них, будет отображаться. 

Вслед за именем тега следует подвыражение, обрабатывающее атрибу¬ 
ты, которое было существенно изменено по сравнению с предыдущим 
регулярным выражением с целью обеспечить более точную имитацию 
поведения браузеров при парсинге крайних случаев недопустимой раз¬ 
метки. Так как случайный символ > может завершить тег, если он нахо¬ 
дится не внутри значения атрибута, важно точно определить, где начи¬ 
нается и где заканчивается значение атрибута. Это не так просто, как 
могло бы показаться, потому что возможно появление кавычки и знака 
равно внутри тега, но за пределами определения атрибута и даже внут¬ 
ри значения атрибута, не заключенного в кавычки. 

Рассмотрим несколько примеров. Данное регулярное выражение совпа¬ 
дет с каждой из следующих строк полностью: 

• <ет 1:і1:1е= , ’>"> 

• <ет ! = ">"> 

• </ет// его <ет> 

• <ет Ш1е-">”"> 

• <ет 1:Ше= , " , ет"> 1 

• <ет" Іі1;1е="> ,, > 


1 Значением атрибута Шіе является пустая строка, а не еш. 
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В следующих строках регулярное выражение совпадет только с под¬ 
черкнутой частью: 

• <ет "> "> 

• <ет="> "> 

• <ет 1і1:1е=="> "> 1 

• <ет Ш1е=ет="> "> 

• <ет Ш1е= ="> "> 

Имейте в виду, что обработка этих примеров специально проектирова¬ 
лась так, чтобы соответствовать типичному поведению браузеров. 

Вернемся к обработке атрибутов: далее следует несохраняющая группа 
<(?:=\з*(?:"[' ч,, ]*"| |[Лз>] + )|[~>])*>- В ней имеются две внешние аль¬ 

тернативы, разделенные оператором выбора < |>. 

Первая альтернатива, <=\з*(?:"[~’|[Лз>] + )>> совпадает со значе¬ 
нием атрибута; знак равенства сигнализирует о начале значения. Вслед 
за знаком равенства и необязательным пробельным символом (<\з*>) сле¬ 
дует вложенная несохраняющая группа, включающая три альтернати¬ 
вы: < ”['' ”]*"> совпадает со значениями в кавычках, <'["']*’> совпадает со 
значениями в апострофах и <[~\з>]+> совпадает со значениями, не за¬ 
ключенными в кавычки. Шаблон, соответствующий значениям, не за¬ 
ключенным в кавычки, допускает присутствие любых символов, кроме 
пробельных и >, - даже кавычки и знаки равенства. Это правило явля¬ 
ется более свободным, чем определено стандартом для допустимой раз¬ 
метки НТМЬ, но оно полностью соответствует поведению браузеров. Об¬ 
ратите внимание: из-за того что альтернатива, совпадающая со значе¬ 
ниями, не заключенными в кавычки, благополучно поглощает кавыч¬ 
ки, она должна быть помещена в конец списка альтернатив; в противном 
случае две другие альтернативы (совпадающие со значениями в кавыч¬ 
ках и апострофах) никогда не получат шанс найти совпадение. 

Вторая альтернатива во внешней группе- это простой символьный 
класс <[~>]>. Она используется для сопоставления с именами атрибутов 
(по одному символу за раз), пробельными символами, отделяющими ат¬ 
рибуты, завершающим символом / в самозакрывающихся тегах и любы¬ 
ми другими случайными символами в пределах тегов. Так как альтерна¬ 
тива с этим символьным классом совпадает также со знаком равенства 
(в дополнение к почти любым другим символам), она должна находить¬ 
ся в конце группы, иначе другая альтернатива, совпадающая со значе¬ 
ниями атрибутов, никогда не получат шанс участвовать в совпадении. 

Далее регулярное выражение заканчивается конструкцией <(?:>|$)>. 
Она соответствует либо концу тега, либо концу строки, смотря что бу¬ 
дет достигнуто раньше. 


1 Значением атрибута Іііііе является =", а не >. Второй знак равно интерпрети¬ 
руется как первый символ значения атрибута, не заключенного в кавычки. 
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Об управлении возвратами 

Ранее во врезке «Безопасная(І) оптимизация эффективности» по¬ 
казано, как повысить скорость сопоставления с тегами при помо¬ 
щи атомарной группировки и захватывающих квантификаторов. 
В данном случае производительность потенциально может быть 
улучшена еще больше, потому что наборы символов, которые мо¬ 
гут совпасть с шаблонами <[~\з>/]*>, <[Лз>]+> и <[">]>, перекрывают¬ 
ся, обеспечивая тем самым огромный набор возможных комбина¬ 
ций, которые механизму регулярных выражений придется опро¬ 
бовать, прежде чем оставить неудачную попытку сопоставления. 

Фактически, как уже отмечалось выше, мы решили эту пробле¬ 
му, разрешив считать успешным частичное совпадение с регуляр¬ 
ным выражением при встрече конца испытуемой строки. Однако 
если в используемом диалекте регулярных выражений доступна 
атомарная группировка или захватывающие квантификаторы, 
их определенно стоит использовать. На то есть две причины. Во- 
первых, когда механизм возвратов находится под полным контро¬ 
лем, можно без всякой опаски потребовать, чтобы все совпадения 
завершались закрывающей угловой скобкой >. Иными словами, 
подвыражение <(?:>|$)> в конце регулярного выражения можно за¬ 
менить литералом <>>, ничуть не беспокоясь о проблеме катастро¬ 
фических возвратов. Во-вторых, этот прием повысит устойчивость 
регулярного выражения при внесении в него изменений. В теку¬ 
щей его версии даже незначительные изменения могут стать ис¬ 
точником проблем, связанных с неконтролируемыми возвратами, 
и поэтому должны тщательно обдумываться и тестироваться. 

Так давайте же воспользуемся этими средствами управления воз¬ 
вратами! Следующие изменения также могут быть перенесены 
в регулярные выражения, совпадающие с открывающими/одиноч¬ 
ными и закрывающими тегами, которые приводятся чуть выше: 

С применением атомарной группировки: 

</?([А-2а-2](?>["\5>/]*))(?> = \з*(?:I'’ I [~\ 

5>]+)|Г>])*(?:>1$) 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, РОКЕ, Регі, КиЬу 

С применением захватывающих квантификаторов: 

</?([А-2а-2][~\з>/]*+)(?:=\з*(?|’ I [~\ 

з>]+)ІГ>])*+(?:>|$) 

Параметры: нет 

Диалекты: ^ѵа, РСКЕ, Регі 5.10, КиЬу 1.9 
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Диалекты ^ѵайсгірі; и РуІЬоп не поддерживают ни атомарную 
группировку, ни захватывающие квантификаторы, однако того 
же эффекта можно добиться, имитируя атомарную группировку 
с помощью обратных ссылок на совпадения, сохраненные в опере¬ 
жающих проверках (подробнее об этом рассказывается в разделе 
«Проверки являются атомарными» в рецепте 2.16). 

С применением имитации атомарной группировки: 

</?([А-2а-г](?=([~\з>/]*))\2)(?=((?: =\з*(? | ’ I [~\з > ]+) М 

[~>])*))\3(?:>|$) 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЪу 


Позволив успешное совпадение по достижении конца строки, даже ес¬ 
ли конец тега так и не был встречен, мы не только сымитировали пове¬ 
дение большинства браузеров, но и решили потенциальную проблему 
катастрофических возвратов (рецепт 2.15). Если бы мы вынудили регу¬ 
лярное выражение выполнять возвраты (и в конечном счете признать 
неудачу сопоставления) при отсутствии символа >, завершающего тег, 
механизму регулярных выражений пришлось бы опробовать все воз¬ 
можные перестановки, допускаемые перекрывающимися шаблонами 
и вложенными повторяющимися группами, что могло бы породить 
проблему падения производительности. Однако данная реализация ре¬ 
гулярного выражения решает эту проблему и всегда должна обеспечи¬ 
вать высокую эффективность. 

Следующие регулярные выражения демонстрируют, как можно адап¬ 
тировать этот шаблон для совпадения только с открывающими, только 
с закрывающими или с одиночными (самозакрывающимися) тегами: 

Только открывающие и одиночные теги 

<([А-2а-і][~\з>/]*)(? :=\з*(?’|[~\з>]+)|[">])*(?:>!$) 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 

В этой версии отсутствует конструкция </?>, следовавшая за откры¬ 
вающей угловой скобкой <<>. 

Только закрывающие теги 

</([А-2а-г][Лз>/]*)(?:=\з*(? Г Г ’ ]* ’ I Г\з>]+) | [">])*(? :>|$) 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ЛѵаЗсгірі, РСКЕ, Регі, РуІЬоп, КиЬу 

В данном случае символ слэша за открывающей угловой скобкой <<> 
сделан обязательной частью совпадения. Следует отметить, что мы 
умышленно допустили возможность появления атрибутов в закры- 
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вающих тегах, потому что это регулярное выражение основано на 
«не строгом» решении. Хотя браузеры не используют атрибуты, со¬ 
держащиеся в закрывающих тегах, тем не менее они не возражают 
против их существования. 

Теги (Х)НТМІ. (строго) 

Говоря о строгости этого решения, мы подразумеваем, что оно пытается 
следовать синтаксическим правилам НТМЬ и ХНТМЪ, описанным во 
вводном разделе этой главы, вместо того чтобы имитировать работу 
браузеров при парсинге исходного кода разметки документа. По сравне¬ 
нию с предыдущими регулярными выражениями эта строгость добав¬ 
ляет следующие правила: 

• Имена тегов и атрибутов должны начинаться с буквы А-2 или а- 2 , 
а внутри имен могут использоваться только символы А-2, а- 2 , 0-9, 
дефис и двоеточие. В виде регулярного выражения это выглядит 
так: Г[А-2а-2][-:А-2а-20-9]*$>. 

• После имени тега недопустимы ошибочные, случайные символы. За 
именем тега могут следовать только пробельные символы, атрибуты 
(со значениями или без) и необязательный завершающий символ 
слэша (/). 

• В значениях атрибутов, не заключенных в кавычки, не могут ис¬ 

пользоваться ", ’, ',=,<,> и пробельные символы. В виде регулярного 
выражения это выглядит так: ■ =<>\з]+$>. 

• Закрывающие теги не могут включать атрибуты. 

Так как шаблон разбит на две альтернативы, имя тега сохраняется в об¬ 
ратной ссылке с номером 1 или 2 в зависимости от типа совпавшего тега. 
Первая альтернатива предназначена для поиска открывающих и оди¬ 
ночных тегов, а вторая - для поиска закрывающих тегов. Оба набора 
сохраняющих круглых скобок можно убрать, если обратные ссылки на 
имена тегов не нужны. 

В следующих примерах две альтернативы выделены в отдельные регу¬ 
лярные выражения. Обе они сохраняют имя тега в обратной ссылке 1: 

Открывающие и одиночные теги 

<([А-2][-:А-20-9]*)(?:\з+[А-2][-:А-20-9]*(?:\з*=\зО 

|[ ,= <>\ 3 ] + ))?)*\з*/?> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, РСКЕ, Регі, РуШоп, КиЬу 

Конструкция </?>, стоящая непосредственно перед закрывающей уг¬ 
ловой скобкой <>>, позволяет регулярному выражению совпадать как 
с открывающими, так и с одиночными тегами. Если ее удалить, выра¬ 
жение будет совпадать только с открывающими тегами. Если удалить 
только квантификатор знак вопроса (сделав обязательным совпаде¬ 
ние с символом </>), оно будет совпадать только с одиночными тегами. 
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Закрывающие теги 

</([А-2][-:А-20-9]*)\8*> 

Параметры: нечувствительность к регистру символов 

Диалекты: ^ЕТ, Лѵа, ^ѵаЕсгірі;, РСКЕ, Регі, РуІЬоп, КиЬу 

В последних двух разделах говорилось, как увеличить потенциальную 
производительность за счет добавления атомарной группировки или 
захватывающих квантификаторов. Строго определенные пути поиска 
совпадений с этим регулярным выражением (и с его приведенными ва¬ 
риантами) подразумевают отсутствие потенциальных совпадений с од¬ 
ной и той же строкой более чем одним способом; вследствие этого сни¬ 
жается вероятность возвратов, которые могут порождать проблемы. 
Это регулярное выражение не рассчитывает на возможность возвра¬ 
тов, поэтому, если возникнет желание, можно каждый последний кван¬ 
тификатор <*>, <+> и <?> сделать захватывающим (или получить тот же 
эффект с помощью атомарной группировки), после чего получившиеся 
регулярные выражения будут совпадать (и не совпадать) ровно с теми 
же строками с некоторым снижением вероятности возвратов для всего 
регулярного выражения. Мы отказываемся от подобных вариантов для 
данного и последующих выражений, чтобы постараться в этом рецепте 
сохранить контроль над сумасшедшим числом возможностей. 

Ниже, в разделе «Игнорирование необычных разделов (Х)НТМЬ и ХМЬ», 
демонстрируется, как избежать совпадения с тегами внутри коммента¬ 
риев, в тегах <зсгір1:> и т. п. 

Теги ХМЬ (строго) 

Язык ХМЬ не допускает возможность «не строгого» решения вследствие 
его точной спецификации и требований к парсерам не обрабатывать не¬ 
правильно оформленную разметку. Хотя можно использовать предыду¬ 
щие регулярные выражения при обработке документов ХМЬ, их упро¬ 
щенный подход не обеспечивает более высокую надежность поиска, по¬ 
тому что не существует нестрогих программ для работы с разметкой 
ХМЬ, чье поведение можно было бы имитировать. 

Это регулярное выражение в своей основе является упрощенной версией 
регулярного выражения из раздела «Теги (Х)НТМЬ (строго)», потому 
что появилась возможность убрать из него поддержку двух особенностей 
НТМЬ, не допустимых в ХМЬ: значений атрибутов без кавычек и мини¬ 
мизированных атрибутов (атрибутов, не сопровождаемых значением). 
Еще одно отличие заключено в наборе символов, которые допускается 
использовать в именах тегов и атрибутов. Фактически правила опреде¬ 
ления имен в языке ХМЬ (применяемые к именам тегов и атрибутов) бо¬ 
лее свободны, чем показано здесь, и допускают использование сотен ты¬ 
сяч дополнительных символов Юникода. Если потребуется обеспечить 
допустимость этих символов при поиске, можно заменить три вхожде¬ 
ния конструкции <[_:А-2][-. :\\л/]*> на один из шаблонов из рецепта 9.4. 
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Примечательно, что список допустимых символов может изменяться 
в зависимости от используемой версии ХМЬ. 

Как и в случае с регулярными выражениями для (Х)НТМЬ, имя тега 
сохраняется в обратной ссылке 1 или 2 в зависимости от типа совпавше¬ 
го тега - открывающий/одиночный или закрывающий. Здесь также 
можно удалить сохраняющие круглые скобки, если ссылки на имена 
тегов не требуются. 

В следующих примерах два альтернативных шаблона выделены в от¬ 
дельные регулярные выражения. В результате каждый из них сохраня¬ 
ет имя тега в обратной ссылке 1: 

Только открывающие и одиночные теги 

<([_: А-2][-. • \м]*)(? !\з+[_: А-2][-. Ам]*\$*=\з*«-І 
| ))*\з*/?> 

Параметры: нечувствительность к регистру символов 
Диалекты: ^ЕТ, ^з.ѵа., ^ѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЪу 

Конструкция </?>, стоящая непосредственно перед закрывающей уг¬ 
ловой скобкой <>>, позволяет регулярному выражению совпадать как 
с открывающими, так и с одиночными тегами. Если ее удалить, вы¬ 
ражение будет совпадать исключительно с открывающими тегами. 
Если удалить только квантификатор знак вопроса, оно будет совпа¬ 
дать исключительно с одиночными тегами. 

Только закрывающие теги 

</([_•А-2][-.:\м]*)\$*> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірі;, РСКЕ, Регі, РуНюп, КиЪу 

В следующем разделе демонстрируется, как избежать совпадения с тега¬ 
ми внутри комментариев, в разделах СБАТА и в объявлениях БОСТУРЕ. 

Игнорирование необычных разделов (Х)НТМІ. и ХМІ_ 

При попытке сопоставления с ХМЬ-подобными тегами внутри исходно¬ 
го файла или в строке наибольшую проблему представляет необходи¬ 
мость избежать совпадения с содержимым, которое выглядит как тег, 
когда его местоположение или контекст явно свидетельствуют, что это 
не тег. Регулярные выражения для работы с разметкой (Х)НТМЬ и ХМЬ, 
которые демонстрировались в этом рецепте, избегают совпадения с про¬ 
блематичным содержимым за счет ограничений, накладываемых на 
первый символ в имени элемента. Некоторые идут еще дальше, тре¬ 
буя, чтобы теги полностью соответствовали синтаксическим правилам 
(Х)НТМЬ или ХМЬ. Однако для полной надежности необходимо так¬ 
же избегать совпадения с содержимым, находящимся в комментариях, 
в программном коде на языке сценариев (где могут использоваться сим¬ 
волы «больше» и «меньше» в математических операциях), в разделах 
СБАТА языка ХМЬ и в ряде других конструкций. Эту проблему можно 
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решить, если сначала отыскать эти проблематичные разделы, а затем 
выполнять поиск тегов только за пределами этих совпадений. 


В рецепте 3.18 показано, как реализовать поиск между совпадениями 
с другим регулярным выражением. В этом рецепте используется два 
шаблона: внутреннее и внешнее регулярное выражение. Решения, ко¬ 
торые были продемонстрированы выше, будут играть роль внутреннего 
выражения. Внешнее регулярное выражение показано ниже, с отдель¬ 
ными шаблонами для (Х)НТМЬ и ХМЬ. Этот прием скрывает проблема¬ 
тичные разделы от внутреннего регулярного выражения и тем самым 
позволяет сохранить реализацию достаточно простой. 


я * 



Вместо поиска между совпадениями с внешним регулярным выра¬ 
жением может оказаться удобнее просто удалить все такие совпаде¬ 
ния (например, заменить все совпадения с внешним регулярным 
выражением пустыми строками). После этого можно выполнить по¬ 
иск тегов ХМЬ или (Х)НТМЬ, не заботясь о необходимости пропус¬ 
кать необычные разделы, такие как блоки СБАТА и теги <зсгір1:>, 
так как они будут удалены из испытуемого текста. 


Внешнее регулярное выражение для (Х)НТМІ. 

Следующее регулярное выражение совпадает с комментариями, разде¬ 
лами СБАТА и некоторыми специальными элементами. В состав совпа¬ 
дения со специальными элементами <зсгір1:>, <зІу1е>, <Ш1е> и <хтр> х вхо¬ 
дит все их содержимое. Регулярное выражение также совпадает с эле¬ 
ментом <р1аіп1ех^> 2 , при обнаружении которого совпадение простирает¬ 
ся до конца испытуемой строки: 

\[С0АТА\[. *?]]>| <(зсгір1: |з1:у1е|ЬехЬагеа| ЬіЫе |хтр)^ 

\Ь(?: Г>" 1 ] | | '['"]*')*>. *?</\1\з*> |< Р 1аіпИех-Ы 

\Ь(? | | ’]*’)*>. * 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк 

Диалекты: .ЫЕТ, Заѵа, ХКе&Ехр, РСКЕ, Регі, РуѣЬоп, КиЪу 

Для тех, кому эта строка покажется неудобочитаемой, ниже приводит¬ 
ся это же регулярное выражение в режиме свободного форматирования 
с дополнительными комментариями: 


1 <хтр> - это малоизвестный, но широко поддерживаемый элемент, похожий 
на <рге>. Подобно <рге>, он сохраняет все пробельные символы и по умолча¬ 
нию использует моноширинный шрифт, но кроме этого, все его содержимое 
(включая теги НТМЬ) отображается как простой текст. Элемент <хтр> был 
объявлен устаревшим в НТМЬ 3.2 и был полностью удален в НТМЬ 4. 

2 Элемент <р1аіп1:ех1:> похож на элемент <хтр>, за исключением того, что его 
действие простирается не до закрывающего тега, а до конца документа. Кро¬ 
ме того, как и элемент <хтр>, он объявлен устаревшим в НТМЬ 4.0, но про¬ 
должает поддерживаться. 
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# Комментарий 
<!-- .*? --> 

I 

# раздел СйАТА 

<!\[СРАТА\[ .*? ]]> 

I 

# Специальные элементы и их содержимое 

<( зсгірт | зТуІе | ІехТагеа | ТіТІе | хтр )\Ь 

> .*? </\1\з*> 

# Совпадение с <р1аіпТех1:/> простирается до конца испытуемой строки 
<р1аіп1;ех1:\Ь 

(? : [~>" ’ ] | | '["’]*')* 

. * 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк, режим свободного форматирования 
Диалекты: .ЫЕТ, Лѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

Ни одно из выражений, приведенных выше, не будет работать коррект¬ 
но в ^ѵа8сгірІ без использования библиотеки ХКе^Ехр, потому что 
в ^ѵаЗсгірѣ отсутствуют режимы «точке соответствуют границы строк» 
и «режим свободного форматирования». Следующее регулярное выра¬ 
жение снова возвращено к неудобочитаемому представлению, и в нем 
символ точки заменила конструкция <[\з\3]>, благодаря чему его можно 
использовать в диалекте ^ѵа8сгір1: 

<! --[\з\3]*?-->|<!\[С0АТА\[[\з\5]*?]]>|< (зсгірі: | зііуіе | Ііехііа геа|1:Ше|хтр^ 
\Ь(?: Г>” ’ ] | "С""]*" | ’ [~ * ]* ’ )*>[\5\3]*?</\1\з*> I <р1аіп1:ех1:и 
\Ь(? | | )*>[\з\8]* 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі, РСКЕ, Регі, РуіЬоп, КиЬу 

Эти регулярные выражения представляют нечто вроде дилеммы: так 
как они совпадают с тегами <зсгірІ>, <з1:у1е>, <1ех1:агеа>, <ѣі1:1е>, <хпр> 
и <р1аіп1:ех1:>, эти теги никогда не будут обнаруживаться вторым (внут¬ 
ренним) регулярным выражением, хотя оно способно находить все теги. 
Однако решение этой проблемы - всего лишь вопрос добавления допол¬ 
нительного программного кода, обрабатывающего эти теги отдельно. 

Внешнее регулярное выражение для ХМІ. 

Это регулярное выражение совпадает с комментариями, с разделами 
СБАТА и с объявлениями БОСТУРЕ. В каждом из этих случаев совпа¬ 
дение обеспечивается отдельными шаблонами, которые объединяются 
в общее регулярное выражение с помощью метасимвола выбора ф: 

<! *?—\3*>|<!\[С0АТА\[. *?]]>| <! 00СТѴРЕ\з(? : ["О’"] | "[ — ]*" М 

’[''■]*’ |<! (?:['*>"I '[''■]*’)*>)*> 
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Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк 

Диалекты: ^ЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЬу 

Это же выражение в режиме свободного форматирования: 

# Комментарий 
<!-- .*? --\з*> 

# Раздел СОАТА 

<!\[СйАТА\[ .*? ]]> 

I 

# Объявление типа документа 
<! 00СТУРЕ\з 

(?: [''<>"'] # Неспециальный символ 
| # Значение в кавычках 

| # Значение в апострофах 

| <! (?: [~>" ’ ] Г[~"]*" | ' [~ ' ]* ’ )*> # Объявление разметки 

)* 

> 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк, режим свободного форматирования 
Диалекты: .1ЧЕТ, Заѵа, ХКе&Ехр, РСКЕ, Регі, Руііюп, КиЬу 

А это версия, работающая в диалекте ЗаѵаЗсгірІ (где отсутствуют режи¬ 
мы «точке соответствуют границы строк» и «режим свободного форма¬ 
тирования»): 

<! — [\з\5]*? — \з*> |<!\[С0АТА\[[\з\5]*?]]>|<т0СТУРЕ\з(? ]ГГ"]*"М 

’ '|<!(?:[ Л >"']|"[ ]*"I'["’]*’)*>)*> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірѣ, РСКЕ, Регі, РуУюп, КиЬу 


Только что представленные регулярные выражения допускают при¬ 
сутствие пробельных символов между -- и > в конце комментариев 
ХМЬ за счет использования шаблона <\з*>. Этим они отличаются от 
версии, представленной в разделе «Внешнее регулярное выражение 
для (Х)НТМЬ», потому что НТМЬб и веб-браузеры отличаются этой 
особенностью от ХМЬ. Обсуждение различий в оформлении ком¬ 
ментариев в ХМЬ и НТМЬ можно найти в разделе «Поиск допусти¬ 
мых комментариев НТМЬ» в рецепте 9.9. 


Поиск совпадения с любым или со всеми тегами - распространенная за¬ 
дача, но нередко бывает необходимо обеспечить совпадение с каким-ни¬ 
будь определенным тегом или с одним из небольшого набора; в рецеп¬ 
те 9.2 показано, как решить обе эти задачи. В рецепте 9.3 описывает¬ 
ся, как обеспечить совпадение со всеми тегами, кроме перечисленных 
в списке. 



См. также 
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Рецепт 9.4, где описываются символы, допустимые в именах элементов 
ХМЬ и их атрибутов. 

В рецепте 9.7 демонстрируется поиск тегов, содержащих определенный 
атрибут, а в рецепте 9.8 - поиск тегов, не содержащих определенный ат¬ 
рибут. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.8 описывается применение оператора выбора. В рецепте 2.9 
рассказывается о группировке. В рецепте 2.10 обсуждаются обратные 
ссылки. В рецепте 2.12 объясняется, как организовать сопоставление 
с повторяющимися комбинациями символов. В рецепте 2.13 описыва¬ 
ется, как обеспечить совпадение с как можно меньшим количеством 
символов. В рецепте 2.14 объясняются особенности атомарной группи¬ 
ровки. В рецепте 2.16 рассказывается об опережающих и ретроспектив¬ 
ных проверках. 

9.2. Заменить тег <Ь> тегом < 5 *гопд> 

Задача 

Необходимо заменить в испытуемом тексте все открывающие и закры¬ 
вающие теги <Ь> соответствующими тегами <з1гопд>, сохраняя любые 
существующие атрибуты. 

Решение 

Следующее регулярное выражение совпадает с открывающим и закры¬ 
вающим тегами <Ь> как с атрибутами, так и без них: 

<(/?)Ь\Ь( (? | | ’["’]*’)*)> 

Параметры: нечувствительность к регистру символов 
Диалекты: ^ЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуіЬоп, КиЬу 

В режиме свободного форматирования: 

< 

(/?) # Сохранить необязательный ведущий слэш в обратной ссылке 1 

Ь \Ь # Дополнить имя тега границей слова 

( # Сохранить любые атрибуты в обратной ссылке 2 

(?: # Любые символы, кроме >, " или 

| # Значение атрибута в кавычках 

| ’[''■]*’ # Значение атрибута в апострофах 

)* 

) 

> 
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Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, Лѵа, ХКе&Ехр, РСКЕ, Регі, РуіЪоп, КиЬу 

Чтобы сохранить все атрибуты при изменении имени тега, можно ис¬ 
пользовать следующий замещающий текст: 

<$1зТгопд$2> 

Диалекты замещающего текста: .ЫЕТ, Заѵа, ЛѵаЗсгірІ, Регі, РНР 

<\1 зі: гопд\2> 

Диалекты замещающего текста: РуПюп, КиЬу 

Чтобы удалить все атрибуты, выполняя ту же процедуру, достаточно 
опустить обратную ссылку 2 в замещающем тексте: 

<$1з1:гопд> 

Диалекты замещающего текста: .ИЕТ, ^ѵа, ^ѵаЗсгірѣ, Регі, РНР 

<\1 зі: гопд> 

Диалекты замещающего текста: РуЙюп, КиЬу 

Программный код, необходимый для реализации этой задачи, приво¬ 
дится в рецепте 3.15. 

Обсуждение 

Предыдущий рецепт (9.1) включает подробное обсуждение множества 
способов сопоставления с любыми ХМЬ-подобными тегами. Это освобо¬ 
ждает данный рецепт от необходимости рассматривать прямолиней¬ 
ный подход к проблеме поиска конкретного тега. Тег <Ь> и его замена 
<зі:гопд> предложены только в качестве примера, но вы можете подста¬ 
вить на их место имена двух любых других тегов. 

Регулярное выражение начинается сопоставлением с литералом <<> - 
с первым символом любого тега. Далее следует сопоставление с необя¬ 
зательным символом слэша, который обнаруживается в закрывающих 
тегах, с помощью конструкции </?>, заключенной в сохраняющие круг¬ 
лые скобки. Сохранение результата сопоставления с этим шаблоном 
(который будет либо пустой строкой, либо символом слэша) позволит 
легко восстановить слэш в замещающем тексте без использования ка¬ 
кой-либо условной логики. 

Затем производится сопоставление самого имени тега, <Ь>. При жела¬ 
нии здесь можно использовать имя любого другого тега. Мы задейство¬ 
вали режим нечувствительности к регистру символов, чтобы также 
обеспечить совпадение с символом верхнего регистра В. 

Про границу слова (<\Ь>), следующую за именем тега, легко забыть, но 
это один из наиболее важных элементов регулярного выражения. Гра¬ 
ница слова позволяет обеспечить совпадение только с тегами <Ь>, но не 
с <Ьг>, <ЬосІу>, <Ыоскдію1:е> или любыми другими тегами, которые начи- 
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наются с буквы «Ъ». Для решения этой же проблемы после имени мож¬ 
но было бы использовать сопоставление с пробельным символом (<\з>), 
но в этом случае выражение не будет совпадать с тегами, в которых от¬ 
сутствуют атрибуты и которые поэтому не имеют пробельных символов 
после имени. Граница слова позволяет решить эту задачу просто и эле¬ 
гантно. 

При работе с ХМЬ и ХНТМЬ не забывайте, что в именах тегов ХМЬ 
допускается использовать двоеточие для отделения пространства 
лі имен, а также дефис и некоторые другие символы, которые образу¬ 
ют границу слова. Например, регулярное выражение может обнару¬ 
жить совпадение с чем-нибудь, похожим на <Ь-зПагр>. Если в вашем 
случае это имеет значение, вместо границы слова можно воспользо¬ 
ваться опережающей проверкой <(?=[\з/>])>. Она позволит обеспе¬ 
чить невозможность совпадения с частью имени тега, причем это ре¬ 
шение более надежное. 

Шаблон <((?:[~>"’]Г’[~"]*’Т ["’]*')*)>* следующий за именем тега, исполь¬ 
зуется для совпадения со всем остальным внутри тега, вплоть до закры¬ 
вающей угловой скобки. Если обернуть этот шаблон в сохраняющую 
группировку, как было сделано в этом примере, можно будет легко 
вставлять обратно любые атрибуты и другие символы (такие как завер¬ 
шающий символ слэша в одиночных тегах) в замещающем тексте. 
Внутри сохраняющих круглых скобок шаблон повторяет сопоставле¬ 
ние с несохраняющей группой, содержащей три варианта выбора. Пер¬ 
вый, <[''>'”]>, совпадает с любым одиночным символом, кроме >, " или ’. 
Другие два варианта совпадают с целой строкой, заключенной в кавыч¬ 
ки или апострофы, что позволяет обеспечить совпадение с любыми зна¬ 
чениями атрибутов, содержащими правые угловые скобки, которые не 
смогут интерпретироваться регулярным выражением как конец тега. 

Варианты 

Замена списков тегов 

Если необходимо отыскать любой тег из списка, потребуется внести 
простое изменение. Нужно все желаемые имена тегов заключить в груп¬ 
пу и разделить их оператором выбора. Группа в данном случае исполь¬ 
зуется для ограничения области действия операторов выбора (< |>). 

Следующее регулярное выражение совпадает с открывающими и за¬ 
крывающими тегами <Ь>, <і>, <ет>и<Ьід>. Замещающий текст, следую¬ 
щий еще ниже, замещает все эти теги соответствующими тегами <з1:гопд> 
или </з^гопд>, при этом сохраняются все атрибуты: 

<(/?)([Ьі] |ет| Ьід )\Ь((?: | | 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуіЬоп, КиЪу 
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Ниже приводится то же выражение в режиме свободного форматирова¬ 
ния: 

< 

(/?) 

([ Ьі ]|ет| Ьід) \Ь 
( 

(?: [“>"■] 

| "[-]*•• 

I Т']*' 

)* 

) 

> 

Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ИЕТ, Заѵа, ХКе&Ехр, РСКЕ, Регі, РуЙіоп, КиЬу 

Для совпадения с тегами <Ь> и <і> мы использовали символьный класс 
<[Ьі]>, вместо указания их имен по отдельности через символ оператора 
выбора < |>, как это сделано для тегов <ет> и <Ьід>. Символьный класс ра¬ 
ботает быстрее, чем оператор выбора, потому что для выполнения своей 
работы ему не требуется выполнять возвраты. Когда искомые варианты 
выбора отличаются единственным символом, лучше использовать сим¬ 
вольный класс. 

Кроме того, для имени тега была добавлена сохраняющая группа, в ре¬ 
зультате чего группа, сопоставляемая с атрибутом, теперь сохраняет 
свое совпадение в обратной ссылке 3. Несмотря на то что в операции за¬ 
мены всех совпадений тегом <$1гопд> нет никакой необходимости ссы¬ 
латься на имя тега, тем не менее наличие сохраненного имени тега в от¬ 
дельной обратной ссылке поможет при необходимости определять тип 
совпавшего тега. 

Чтобы сохранить все атрибуты при замене имени тега, можно использо¬ 
вать следующие примеры замещающего текста: 

<$1 зі: гопд$3> 

Диалекты замещающего текста: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, Регі, РНР 

<\1з1:гопд\3> 

Диалекты замещающего текста: РуНюп, КиЬу 

Чтобы удалить атрибуты совпавшего тега, достаточно убрать обратную 
ссылку 3 из замещающего текста: 

<$1з1:гопд> 

Диалекты замещающего текста: .ЫЕТ, Заѵа, ЗаѵаЗсгірі;, Регі, РНР 

<\1 зі: гопд> 

Диалекты замещающего текста: РуШоп, КиЬу 


# Сохранить необязательный ведущий слэш в обратной ссылке 1 

# Сохранить имя тега в обратной ссылке 2 

# Сохранить атрибуты и пр. в обратной ссылке 3 

# Любой символ, кроме >, " или 

# Значение атрибута в кавычках 

# Значение атрибута в апострофах 
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См. также 

Рецепт 9.1, где показано, как отыскивать любые ХМЬ-подобные теги, 
обеспечивая достаточную терпимость к ошибкам в разметке. 

Рецепт 9.3, который является противоположностью по отношению 
к этому рецепту и показывает, как отыскивать любые теги, за исключе¬ 
нием тех, что в списке. 

Приемы, использовавшиеся в регулярных выражениях и в замещаю¬ 
щем тексте в этом рецепте, обсуждаются в главе 2. В рецепте 2.3 расска¬ 
зывается о символьных классах. В рецепте 2.6 говорится о границах 
слов. В рецепте 2.8 описывается применение оператора выбора. В рецеп¬ 
те 2.9 рассказывается о группировке. В рецепте 2.12 объясняется, как 
организовать сопоставление с повторяющимися комбинациями симво¬ 
лов. В рецепте 2.16 рассказывается об опережающих и ретроспектив¬ 
ных проверках. В рецепте 2.21 демонстрируется, как вставлять текст, 
совпавший с сохраняющей группой, в текст замены. 

9.3. Удаление всех ХМІ_-подобных тегов, 
за исключением <ет> и <5Ігопд> 

Задача 

Необходимо удалить все теги в испытуемом тексте, за исключением 

<ет> и <з1:гопд>. 

В другом случае требуется не только удалить все теги, отличные от <еп> 
и <з1:гопд>, но также удалить теги <ет> и <з1:гопд>, содержащие атрибуты. 

Решение 

Это прекрасный повод задействовать негативную опережающую про¬ 
верку (описывается в рецепте 2.16). Применительно к этой задаче нега¬ 
тивная опережающая проверка позволит обеспечить совпадение с фраг¬ 
ментами текста, похожими на тег, за исключением случаев, когда сразу 
за открывающей угловой скобкой < или </ следует определенное слово. 
Если затем все найденные совпадения заменить пустыми строками (как 
это сделать, показано в рецепте 3. 14), в тексте останутся только требуе¬ 
мые теги. 

Решение 1: совпадение с тегами, 
за исключением <ет> и <$*гопд> 

</?(?! (?:ет|з 1 :гопд)\Ь)[а- 2 ](? ГГ" ]*"І 'Г']*' )*> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

В режиме свободного форматирования: 
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< /? 

(?! 

(?: ет | зігопд 
\Ь 


) 

[а- 2 ] 

(?: [*'>"•] 
I 'Г"]* 
I ■["■]* 

)* 


# Разрешить совпадение с закрывающими тегами 

) # Список тегов, исключаемых из сопоставления 

# Граница слова позволит исключить совпадение 

# с частью слова 

# Первый символ в имени тега должен быть а -2 

# Любой символ, кроме >, " или 

# Значение атрибута в кавычках 

# Значение атрибута в апострофах 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, Лѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЪу 


Решение 2: совпадение с тегами, за исключением <еш> 
и <$1гопд>, и с любыми тегами, содержащими атрибуты 

Внеся одно изменение (заменив <\Ь> на <\з*>>), можно заставить это регу¬ 
лярное выражение совпадать также с любыми тегами <ет> и <з1гопд>, 
содержащими атрибуты: 

</?(?! (? :ет|з 1 :гопд)\з*>)[а- 2 ](? | | ’ Г’]*’)*> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 


И снова это же регулярное выражение в режиме свободного форматиро¬ 
вания: 


< /? 

(?! 

(?: ет | зТгопд 
\з* > 

) 

[а- 2 ] 

(?: [“>"'] 

[ ]* 

I '[“’]*• 

)* 


# Разрешить совпадение с закрывающими тегами 

) # Список тегов, исключаемых из сопоставления 

# Исключить теги, содержащие атрибуты 

# Первый символ в имени тега должен быть а -2 

# Любой символ, кроме >, ” или 

# Значение атрибута в кавычках 

# Значение атрибута в апострофах 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуѣЬоп, КиЬу 


Обсуждение 

Регулярные выражения в этом рецепте имеют много общего с выраже¬ 
ниями, приводившимися выше в этой главе и обеспечивающими совпа- 
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дение с ХМЬ-подобными тегами. Кроме негативной опережающей про¬ 
верки, добавленной с целью предотвратить совпадение с некоторыми 
тегами, эти регулярные выражения практически эквивалентны выра¬ 
жениям из раздела «Теги (Х)НТМЬ (не строго)» в рецепте 9.1. Другое 
значительное отличие заключается в том, что здесь имя тега не сохра¬ 
няется в обратной ссылке 1. 

Рассмотрим поближе нововведения в этом рецепте. Выражение в реше¬ 
нии 1 никогда не будет совпадать с тегами <ет> и <з1:гопд> независимо от 
того, имеют они атрибуты или нет, но будет совпадать с любыми други¬ 
ми тегами. Выражение в решении 2 будет совпадать с теми же тегами, 
что и выражение в решении 1, и дополнительно совпадать с тегами <ет> 
и <з!гопд>, содержащими один или более атрибутов. В табл. 9.2 приво¬ 
дится несколько примеров испытуемых строк, иллюстрирующих ска¬ 
занное выше. 


Таблица 9.2. Несколько примеров испытуемых строк 


Испытуемая строка 

Решение 1 

Решение 2 

<і> 

Совпадает 

Совпадает 

</і> 

Совпадает 

Совпадает 

<і з!:у1е='Топ1:-5і2е:500%; соіог:гесі;"> 

Совпадает 

Совпадает 

<ет> 

Не совпадает 

Не совпадает 

</ет> 

Не совпадает 

Не совпадает 

<ет з1:у1е='Топі:-зі2е:500%; соіог:гесі;”> 

Не совпадает 

Совпадает 


Поскольку цель применения этих регулярных выражений состоит 
в том, чтобы заменить совпадения пустыми строками (то есть удалить 
теги), решение 2 надежнее защищает от возможности изменять форма¬ 
тирование неожиданным образом с помощью допустимых тегов <ет> 
и <з1гопд> и творить другие глупости. 


В этом рецепте (до сих пор) мы преднамеренно избегали выражения 
«белый список», описывая, как оставить нетронутыми всего не¬ 
сколько тегов, потому что у этой фразы есть второе значение, связан¬ 
ное с темой безопасности. Существует множество способов обойти 
ограничения этого шаблона, используя специально подготовленный 
злонамеренный код разметки НТМЬ. Если вас беспокоит проблема 
возможных атак с применением злонамеренного кода НТМЬ и атак 
типа «межсайтовый скриптинг» (Х88), безопаснее всего будет пре¬ 
образовать все символы <, > и & в соответствующие им мнемониче¬ 
ские ссылки (&11;, &дЬ; и &атр;) и вставить обратно теги, которые, как 
известно, безопасны (пока они не содержат атрибуты или использу¬ 
ют только атрибуты из списка допустимых атрибутов), з^уіе - при¬ 
мер небезопасного атрибута, потому что некоторые браузеры позво¬ 
ляют встраивать в таблицы С88 фрагменты программного кода на 
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языке сценариев. Например, чтобы после замены <, > и & мнемониче¬ 
скими ссылками вставить теги <ет> и <31:гопд> обратно, можно вы¬ 
полнить поиск с помощью регулярного выражения <& 11:; (/?) 
(ет | зі: гопд)&д1:; > и заменить совпадения с помощью замещающего 
текста «<$1$2>» (для диалектов РуіЪоп и КиЪу - «<\1\2>»). 


Варианты 

«Белый список» для определенных атрибутов 

Рассмотрим следующие новые требования: необходимо обеспечить сов¬ 
падение со всеми тегами, кроме <а>, <ет> и <зігопд>, с двумя исключе¬ 
ниями. Все теги <а>, имеющие атрибуты, отличные от Нгеі или Ііііііе, 
должны совпадать; кроме того, должны совпадать теги <ет> и <зІгопд>, 
имеющие вообще хоть какие-нибудь атрибуты. Все совпавшие фраг¬ 
менты должны быть удалены. 

Другими словами, следует удалить все теги, кроме перечисленных 
в «белом списке» (<а>, <ет> и <зігопд>). Единственными допустимыми ат¬ 
рибутами являются бгеі и Ііііііе, причем они допускаются только внут¬ 
ри тегов <а>. В случае появления любого другого атрибута в любом теге 
весь тег должен удаляться. 

Следующее регулярное выражение решает эту задачу: 

<(?! (?:ет| зі: гопд |а(? :\з+(? : Игеі | Ііііе )\з*=\з* (? I ' [~' ]*' ))*)\з*>)и 

[а- 2 ](?:[~>"']| "[""І*" |’ ["’]*' )*> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 


И это же регулярное выражение в режиме свободного форматирования: 


< /? 
(?! 
(?: 


# Разрешить совпадение с закрывающими тегами 

ет # Не совпадать с <ет> 

зі: гопд # или <з1гопд> 

а # или <а> 

(?: # причем только с теми тегами <а>, 

# которые не содержат 

\з+ # атрибуты, отличные от РгеГ и/или Ііііііе 

(?:НгеГ| Ііііііе) 

\з*-\з* 

Г ['"]*’) # Значение атрибута в кавычках 

# или апострофах 

)* 


) 

\з* > # Избегать совпадения с этими тегами, когда они содержат 

) # только атрибуты, перечисленные выше 

[а-і] # Первый символ в имени тега должен быть буквой а-і 

(?: # Любой символ, кроме >, ” или 

| # Значение атрибута в кавычках 

| # Значение атрибута в апострофах 
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)* 

> 

Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуНюп, КиЪу 

Мы сами определили границы области, для которой есть смысл приме¬ 
нять такое сложное регулярное выражение. Если правила становятся 
более сложными, чем это, вероятно, лучше будет написать дополни¬ 
тельный программный код, основываясь на рецептах 3.11 и 3.16, и реа¬ 
лизовать в нем проверку каждого совпавшего тега, чтобы определить, 
как его обрабатывать (исходя из имени тега, содержащихся в нем атри¬ 
бутов или какой-то иной информации). 

См. также 

Рецепт 9.1, где показано, как отыскивать любые ХМЬ-подобные теги, 
обеспечивая достаточную терпимость к ошибкам в разметке. 

Рецепт 9.2, который является противоположностью по отношению к это¬ 
му рецепту и показывает, как отыскивать только перечисленные теги. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.8 описывается применение оператора выбора. В ре¬ 
цепте 2.9 рассказывается о группировке. В рецепте 2.12 объясняется, 
как организовать сопоставление с повторяющимися комбинациями сим¬ 
волов. В рецепте 2.16 рассказывается об опережающих и ретроспектив¬ 
ных проверках. 

9.4. Сопоставление с именами ХМІ. 

Задача 

Требуется проверить, является ли испытуемая строка допустимым име¬ 
нем в языке разметки ХМЬ (обобщенной синтаксической конструк¬ 
цией). В языке ХМЬ точно определено, какие символы могут составлять 
имена, и эти правила применяются к именам элементов, атрибутов 
и мнемоник, к инструкциям обработки и ко многому другому. Первым 
символом имени может быть буква, символ подчеркивания или двоето¬ 
чие, остальная часть имени может представлять собой любую комбина¬ 
цию букв, цифр, символов подчеркивания, двоеточий, дефисов и точек. 
Это приблизительное описание, но очень близкое к истине. Точный спи¬ 
сок допустимых символов зависит от используемой версии ХМЬ. 

Кроме того, может потребоваться добавить шаблон, совпадающий с до¬ 
пустимыми именами, в другие регулярные выражения, предназначен¬ 
ные для работы с ХМЬ, когда дополнительная точность влечет за собой 
дополнительную сложность. 
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Ниже приводятся некоторые примеры допустимых имен: 

• Іііліпд 

• _1Гііпд_2_ 

• :Российские-Вещь 

• ГагЦазІіс4:^Ііе.1:Іііпд 

Следует отметить, что в число допустимых входят также символы из ал¬ 
фавитов, отличных от Ьаііп, включая даже иероглифы, как видно в по¬ 
следнем примере. Точно так же вслед за первым символом может следо¬ 
вать любая цифра Юникода, а не только арабские цифры 0-9. 

Для сравнения ниже приводятся несколько примеров недопустимых 
имен, которые не должны совпадать с выражением: 

• ІіГііпд ! 

• Шпд ѵѵ/іІГі зрасез 

• .1:Іііпд.\л/і1:1і.а.сІо1.іп.Ггоп1: 

• -ІГііпдатад ід 

• 2псі_1:Гііпд 

Решение 

Подобно идентификаторам во многих языках программирования, в язы¬ 
ке ХМЬ определено множество символов, которые могут появляться 
в именах, причем только часть их может употребляться в качестве пер¬ 
вого символа. Эти перечни символов существенно отличаются для вер¬ 
сии ХМЬ 1.0, четвертое издание (и ниже), и версий ХМЬ 1.1 и 1.0, пятое 
издание. По сути, в версии ХМЬ 1.1 в именах могут использоваться лю¬ 
бые символы, допустимые в четвертом издании версии 1.0, плюс более 
миллиона других символов. Однако большинство дополнительных сим¬ 
волов - это не что иное, как просто позиции в таблице Юникода. Мно¬ 
гие из них еще не присвоены символам, но уже считаются допустимы¬ 
ми для совместимости в будущем - по мере расширения базы данных 
символов Юникода. 

Ради лаконичности, когда в этом рецепте мы будем ссылаться на вер¬ 
сию ХМЬ 1.0, будут подразумеваться издания с первого по четвертое 
версии ХМЬ 1.0. Когда будет говориться об именах ХМЬ 1.1, также бу¬ 
дет подразумеваться пятое издание версии ХМЬ 1.0. Пятое издание ста¬ 
ло официальной рекомендацией консорциума 1ѴЗС только в конце но¬ 
ября 2008 года, почти через пять лет после появления ХМЬ 1.1. 


Регулярные выражения в этом рецепте содержат якорные метасим¬ 
волы, совпадающие с началом и концом текста (<~ что обеспечи¬ 

вает возможность совпадения с испытуемым текстом только цели¬ 
ком. Если у вас появится необходимость вставлять эти шаблоны 
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в более длинные регулярные выражения, выполняющие сопоставле¬ 
ние с элементами ХМЬ, не забудьте удалить якори в начале и в кон¬ 
це шаблона. Якорные метасимволы описываются в рецепте 2.5. 


Имена ХМЬ 1.0 (приблизительно) 

~[ :_\р{С1}\р{Си}\р{С1:}\р{Со}\р{М1} ][ :_Ѵ • \р{С}\р{М}\р{Ыс1}\р{М1} ]*$ 

Параметры: нет (режим «символам Л и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: .ЫЕТ, Лѵа, ХКе&Ехр, РСКЕ, Регі, КиЬу 1.9 

Библиотека РСКЕ должна быть скомпилирована с поддержкой ЬГТЕ-8, 
чтобы можно было использовать свойства Юникода (<\р{-■-}>). В языке 
РНР поддержка ЬГТЕ-8 включается с помощью модификатора шабло¬ 
на /и. 

Свойства Юникода не поддерживаются в ЛѵаЗсгірІ (без использования 
ХКе&Ехр), РуНюп и КиЬу 1.8. Регулярное выражение для имен ХМЬ 1.1, 
которое следует ниже, не использует свойства Юникода и поэтому мо¬ 
жет быть лучшим выбором в этих языках программирования. В разде¬ 
ле «Обсуждение» этого рецепта подробно описывается, почему может 
быть лучше использовать решение для ХМЬ 1.1, даже в диалектах, под¬ 
держивающих свойства Юникода. 

Имена ХМЬ 1.1 (точно) 

Ниже следуют две версии одного и того же регулярного выражения, 
учитывающие различия между диалектами. Во второй версии для опре¬ 
деления кодовых пунктов Юникода вместо <\и— > используется конструк¬ 
ция <\х{--}>. 

"[:_А-2а-Ди00С0-\и0006\и0008-\и00Р6\и00Р8-\и02РР\и0370-\и0370\и037Р-и 
\и1РРР\и200С\и2000\и2070-\и218Р\и2С00-\и2РЕР\и3001-\иЬ7РР\иР900-\иРЬСР^ 
\иРЬР0-\иРРР0][ А-7а-20-9\и00В7\и00С0-\и0006\и0(Ю8-\и00Р6\и00Р8^ 

\и036Р\и0370-\и0370\и037Р-\и1РРР\и2000\и2000\и203Р\и2040\и2070-\и218Ри 
\и2С00-\и2РЕР\и3001-\и07РР\иР900-\иР0СР\иРЭР0-\иРРР0]*$ 

Параметры: нет (режим «символам Л и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: .ЫЕТ, Лѵа, ЛѵаЗсгірІ, РуіЬоп, КиЬу 1.9 

~[:_А-2а-Дх{С0}-\х{06}\х{08}-\х{Р6}\х{Р8}-\х{2РР}\х{370}-\х{370}\х{37Р}-и 
\х{1РРР}\х{2000}\х{200Р}\х{2070}-\х{218Р}\х{2000}-\х{2РЕР}\х{3001}~и 
\х{07РР}\х{Р900}-\х{ Р0СР }\х{ Р0Р0 }-\х {РРР0} ][ А-2а-і0-9\х{В7}\х{С0}-и 
\х{06}\х{08}-\х{Р6}\х{Р8}-\х{36Р}\х{370}-\х{370}\х{37Р}-\х{1РРР}\х{2000}и 
\х{2000}\х{203 Р}\х{2040}\х{2070}-\х{218Р}\х{2000}-\х{2РЕР}\х{3001}-и 
\х{07РР}\х{Р900}-\х{Р0СР}\х{Р0Р0}-\х{РРР0}]*$ 

Параметры: нет (режим «символам Л и $ соответствуют границы строк» 
должен быть выключен) 

Диалекты: ^ѵа 7, РСКЕ, Регі 
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Библиотека РСКЕ должна быть скомпилирована с поддержкой ЦТГ-8, 
чтобы можно было использовать метапоследовательности <\х{—}> для 
значений выше шестнадцатеричного числа ГГ. В языке РНР поддержка 
ІІТГ-8 включается с помощью модификатора шаблона /и. 

В КиЬу 1.8 поддержка Юникода регулярными выражениями отсутству¬ 
ет полностью, однако в разделе «Варианты» этого рецепта приводятся 
возможные альтернативные решения, обладающие меньшей точностью. 

Несмотря на наше утверждение, что эти регулярные выражения точно 
следуют правилам, применяемым к именам в версии ХМЬ 1.1, в дейст¬ 
вительности это справедливо только для символов с 16-битными кода¬ 
ми (позиции от 0x0 до ОхГГГГ), входящими в состав Плоскости 0, или 
Базовой многоязыковой плоскости (Вазіс МиІШіп^иаІ Ріапе). Дополни¬ 
тельно в ХМЬ 1.1 допускается использовать после первого символа име¬ 
ни еще 917503 кодовых пунктов, расположенных между позициями 
0x10000 и ОхЕГГГГ (Плоскости 1-14). Только РСКЕ, Регі, РуІЬоп 
и КиЬу 1.9 способны ссылаться на кодовые пункты выше ОхГГГГ, но 
вам едва ли доведется встретиться с ними в природе (прежде всего пото¬ 
му, что большая часть позиций в этом диапазоне вообще не присвоена 
каким-либо символам). Если возникнет необходимость добавить под¬ 
держку для этих дополнительных кодовых пунктов, добавьте в конец 
второго символьного класса: 

с Іаѵа 7, РСКЕ, Регі 

<\х{10000}-\х{ЕРРРР}> 

Руікоп 

<\иоооіоооо-\іюооЕРРРР> 

КиЬу 1.9 

<\и{10000}-\и{ЕРРРР}> 

Но даже без добавления этого массивного диапазона перечень символов 
имен в ХМЬ 1.1 намного обширнее, чем в ХМЬ 1.0. 

Синтаксис в языке РуІЬоп, когда за <\1Ь следует восемь шестнадцатерич¬ 
ных цифр, обусловлен его синтаксисом определения литералов строк. 
Описание наиболее важных деталей, касающихся этой особенности, 
приводится в рецепте 2.7. 

Обсуждение 

Многие регулярные выражения в этой главе выполняют сопоставление 
с элементами ХМЬ, поэтому данный рецепт в значительной степени слу¬ 
жит целям обеспечения полноты обсуждения шаблонов, которые могут 
использоваться, когда требуется четко определить, как следует выпол¬ 
нять сопоставление с именами тегов и атрибутов. В остальных рецептах 
мы стараемся придерживаться более простых и менее точных шабло¬ 
нов, отдавая предпочтение удобочитаемости и эффективности. 
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Итак, погрузимся чуть глубже в правила, которые стоят за этими шаб¬ 
лонами. 

Имена ХМІ. 1.0 

Для определения правил, предъявляемых к именам, в спецификации 
ХМЬ 1.0 используется прием «белого списка» и явно перечисляются все 
допустимые символы. Первым символом имени может быть двоеточие 
(:), подчеркивание (_) и почти любой символ из следующих категорий 
Юникода: 

• Строчная буква (Ы) 

• Заглавная буква (Іді) 

• Буква в регистре названия (Ы) 

• Буква без регистра (Ьо) 

• Цифра (N1) 

Вслед за первым символом в дополнение к уже упомянутым символам 
могут использоваться дефис (-), точка (.) и любой другой символ из сле¬ 
дующих категорий: 

• Маркер (М), объединяющий следующие подкатегории: маркер, не 
занимающий места (Мп), маркер, занимающий место (Мс), и объем¬ 
лющий маркер (Ме) 

• Модифицированная буква (Ьт) 

• Десятичная цифра (N(1) 

Эти правила приводят к регулярному выражению в разделе «Решение» 
этого рецепта. Это регулярное выражение еще раз приводится ниже 
в режиме свободного форматирования: 

# Начало текста 

[:_\р{Ь1}\р{Ьи}\р{Ь1:}\р{Ьо}\р{N1}] # Первый символ имени 
[:_\-.\р{Ь}\р{М}\р{ ИсІ }\р{И1}]* # Символы имени (ноль или более) 

$ # Конец текста 

Параметры: режим свободного форматирования (режим «символам Л 
и $ соответствуют границы строк» должен быть выключен) 
Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, КиЬу 1.9 

Снова напомним, что библиотека РСКЕ должна быть скомпилирована 
с поддержкой ЦТР-8. В языке РНР поддержка ТІТЕ-8 включается с по¬ 
мощью модификатора шаблона /и. 

Следует отметить, что во втором символьном классе вместо отдельных 
подкатегорий букв (Ы, Ьи, Ы, Ьо и Ьш) использована их базовая катего¬ 
рия <\р{1_}>. 

Ранее уже отмечалось, что здесь используются приблизительные пра¬ 
вила. Это обусловлено двумя причинами. Во-первых, спецификация 
ХМЬ 1.0 (здесь не имеется в виду пятое издание или более поздняя вер¬ 
сия) перечисляет ряд исключений из этих правил. Во-вторых, списки 
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символов в ХМЬ 1.0 основаны на стандарте Юникода 2.0, который был 
выпущен в 1996 году. В последующих версиях стандарта на Юникод 
была добавлена поддержка новых алфавитов, символы из которых не 
допускается использовать в именах ХМЬ 1.0. 

Однако для приведения регулярного выражения к версии Юникода, ис¬ 
пользуемой механизмом регулярных выражений, то есть для ограниче¬ 
ния его возможностью сопоставления с символами Юникода 2.0, при¬ 
шлось бы написать монстроподобный шаблон, заполненный сотнями 
диапазонов и кодовых пунктов. Если вы действительно захотите соз¬ 
дать такого монстра, обращайтесь к спецификации на четвертое изда¬ 
ние ХМЬ 1.0 (і Ыір://іѵіѵіѵ.іѵ3.ог§/ТК/2006/КЕС-хтІ-20060816 ), раздел 2.3 
«Соішпоп Зупіасііс Сопзігисіз» и приложение В «СЬагасІег Сіаззез». 

Ниже приводятся несколько способов сократить представленные выше 
регулярные выражения в разных диалектах. 

Диалекты Регі и РСКЕ позволяют объединить строчные буквы (Ы), за¬ 
главные буквы (Ьи) и буквы в регистре названия (Ы) в специальную ка¬ 
тегорию «буквы, имеющие регистр» (Ь&). Кроме того, эти диалекты по¬ 
зволяют опускать фигурные скобки в экранированной последователь¬ 
ности <\р{ ■}>, если внутри скобок используется только один символ. Мы 
задействовали эту особенность в следующем регулярном выражении, 
использовав конструкцию <\рЬ\рМ> вместо <\р{1_}\р{М}>: 

~[ :_\р{1-&}\р{І-0}\р{М1} ][ :_\-.\рЬ\рМ\р{МсІ}\р{М1} ]*$ 

Параметры: нет (режим «символам и $ соответствуют границы 
строк» должен быть выключен) 

Диалекты: РСКЕ, Регі 

Диалект .1ЧЕТ поддерживает операцию вычитания символьных клас¬ 
сов, которая используется здесь для вычитания подкатегории Ьт из ка¬ 
тегории Ь вместо того, чтобы перечислять все остальные подкатегории 
букв: 

~[ :_\р{Г}\р{Н1}-[\р{І_т} ]][ \р{Ь}\р{М}\р{МсІ}\р{М1} ]*$ 

Параметры: нет (режим «символам и $ соответствуют границы 
строк» должен быть выключен) 

Диалект: .ЫЕТ 

Диалект Заѵа, так же как РСКЕ и Регі, позволяет опускать фигурные 
скобки вокруг односимвольных имен категорий Юникода. Кроме того, 
следующее регулярное выражение использует преимущества более 
сложной операции вычитания символьных классов (реализованной как 
пересечение с инвертированным классом) для вычитания подкатего¬ 
рии Ьт из Ь: 

~[ :_\рІЛр{М1}&&[~\р{1_т} ]][:_\-. \рЬ\рМ\р{ Мсі }\р{N1} ]*$ 

Параметры: нет (режим «символам и $ соответствуют границы 
строк» должен быть выключен) 

Диалект: ^ѵа 
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Диалекты ЛѵаЗсгірі; (без ХКе&Ехр), Руійоп и КиЪу 1.8 вообще не под¬ 
держивают категории Юникода. Диалект КиЪу 1.9 не поддерживает эти 
только что описанные интересные особенности, но поддерживает более 
переносимую версию этих регулярных выражений, продемонстриро¬ 
ванную в разделе «Решение» этого рецепта. 

Имена ХМІ. 1.1 

В спецификации ХМЬ 1.0 была допущена ошибка явной привязки 
к стандарту Юникода 2.0. Более поздние версии Юникода добавили 
поддержку еще большего количества символов, часть которых принад¬ 
лежит алфавитам, которые раньше вообще не принимались во внима¬ 
ние (например, чероки, эфиопский и монгольский). Так как ХМЬ пре¬ 
тендует на положение универсального формата, была предпринята по¬ 
пытка ликвидировать эту проблему в версиях ХМЬ 1.1 и в пятом изда¬ 
нии ХМЬ 1.0. При определении символов, допустимых в именах, в этих 
более поздних версиях был выполнен переход от стратегии «белого спи¬ 
ска» к стратегии «черного списка», чтобы обеспечить поддержку не 
только тех символов, что были добавлены начиная с версии Юнико¬ 
да 2.0, но и тех, что будут добавлены в будущем. 

Эта новая стратегия, когда разрешено все, что явно не запрещено, улуч¬ 
шает будущую совместимость, а также упрощает и сокращает регуляр¬ 
ные выражения, точно следующие правилам. Именно поэтому регу¬ 
лярные выражения для работы с именами ХМЬ 1.1 помечены как точ¬ 
ные, тогда как регулярные выражения для ХМЬ 1.0 - как приблизи¬ 
тельные. 

Варианты 

В некоторых рецептах этой главы (например, рецепт 9.1) сегменты вы¬ 
ражения, имеющие дело с именами ХМЬ, или не используют никакие 
ограничения, или запрещают дополнительные алфавиты и другие сим¬ 
волы, которые в действительности являются допустимыми. Это было 
сделано, чтобы упростить их изучение. Однако если необходимо разре¬ 
шить использование других алфавитов, обеспечивая при этом базовый 
уровень ограничений (и вам не требуется более точная проверка имен 
из первых регулярных выражений в этом рецепте), можно воспользо¬ 
ваться следующими регулярными выражениями. 


Это первое регулярное выражение просто исключает возможность сов¬ 
падения с символами, которые могут использоваться в тегах как симво¬ 
лы-разделители, а также не допускает возможность совпадения с циф¬ 
рой в первом символе: 


Мы оставили якорные метасимволы начала и конца текста в этих 
регулярных выражениях, потому что они должны использоваться 
не самостоятельно, а как часть более длинного выражения. 
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[Л0\з" ’/<=>][~\з" ’/<=>]* 

Параметры: нет 

Диалекты: ^ЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, Руііюп, КиЪу 

Ниже приводится еще один более короткий способ добиться того же са¬ 
мого. Вместо использования двух отдельных символьных классов в нем 
применяется негативная опережающая проверка, чтобы отвергнуть со¬ 
впадение с цифрой в первом символе. Этот запрет применяется только 
к первому символу, хотя квантификатор <+> после символьного класса 
позволяет регулярному выражению совпадать с неограниченным чис¬ 
лом символов: 

(?!Ѵ0Г\5"У<=>]+ 

Параметры: нет 

Диалекты: .КЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуНюп, КиЪу 

См. также 

Джон Коуэн (ЛЫт Солѵап), один из разработчиков спецификации 
ХМЬ 1.1, объясняет, какие символы недопустимы в именах ХМЬ 1.1 
и почему, в своем сообщении по адресу Ыір://гесусІе(ікпоіѵІе(і§еМо§8роі, 
сот/2008/02/іѵМсН-скагасіег8-аге-ехсІисІе(1-іп-хт1.кітІ. 

Документ «Васк&гоипсі Іо Сйап&ез іп ХМЬ 1.0, 5ѢЬ. ЕйШоп» по адресу 

кіір://іѵипѵ.іѵ3.ог§/ХМЬ/2008/02/хт110_5ік_е(Ііиоп_Ъаск8гоип(1.кіти 

где обсуждается обоснование обратного переноса правил, применяемых 
к именам в ХМЬ 1.1, в версию ХМЬ 1.0, пятое издание. 

Рецепт 9.1, где показано, как отыскивать любые ХМЬ-подобные теги, 
обеспечивая достаточную терпимость к ошибкам в разметке. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.7 рассказывается о сопоставлении с символами Юникода. В рецеп¬ 
те 2.12 объясняется, как организовать сопоставление с повторяющими¬ 
ся комбинациями символов. 

9.5. Преобразование простого текста в НТМІ_ 
добавлением тегов <р> и <Ьг> 

Задача 

Имеется самый обычный текст, такой как многострочное значение, от¬ 
правляемое с помощью формы, который необходимо преобразовать во 
фрагмент разметки НТМЬ для отображения в веб-странице. Абзацы, 
отделяемые друг от друга двумя разрывами строки, должны быть за¬ 
ключены в теги <р>-</р>. Кроме того, разрывы строк следует заменить 
тегами <Ьг>. 
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Решение 

Эту задачу можно решить, выполнив четыре простых шага. В боль¬ 
шинстве языков программирования только на этапе выполнения двух 
средних шагов можно извлечь выгоду от применения регулярных вы¬ 
ражений. 

Шаг 1: замена специальных символов НТМІ. 
мнемоническими ссылками 

Поскольку выполняется преобразование простого текста в разметку 
НТМЬ, на первом этапе необходимо заменить три специальных симво¬ 
ла НТМЬ - &, < и > - мнемоническими ссылками (табл. 9.3). В против¬ 
ном случае получившаяся разметка может приводить к неожиданным 
результатам при отображении в веб-браузере. 

Таблица 9.3. Замена специальных символов НТМЬ 


Искомый символ 

Замещается на 

<&> 

«&атр;» 

<<> 

«&11:;» 

<>> 

«&д!:;» 


В первую очередь следует заменить символы амперсанда (&), потому что 
в ходе операции замены в испытуемый текст будут добавлены дополни¬ 
тельные амперсанды, являющиеся частью мнемонических ссылок. 

Шаг 2: замена всех разрывов строк тегом <Ьг> 

Регулярное выражение: 

\г\П?|\П 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ЛѵаВсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 


\Н 

Параметры: нет 

Диалекты: РСКЕ 7, Регі 5.10 

Замещающий текст: 

<Ьг> 

Диалекты замещающего текста: .ЫЕТ, Заѵа, ЗаѵаВсгірІ, Регі, РНР, РуЙюп, 

КиЬу 

Шаг 3: замена двойных тегов <Ьг> на </р><р> 

Регулярное выражение: 


<Ьг>\з*<Ьг> 
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Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуіЬоп, КиЬу 

Замещающий текст: 

</р><Р> 

Диалекты замещающего текста: .ЫЕТ, ^ѵа, ^ѵаЗсгірі, Регі, РНР, РуіЬоп, 

КиЬу 

Шаг 4: заключить весь текст в теги <р>-</р> 

Этот шаг является простой операцией конкатенации строк и не требует 
применения регулярных выражений. 

Пример для Іаѵа5сгір{ 

Чтобы объединить все четыре шага, создадим функцию ^ѵаЗсгірІ; 
с именем РІітІРготРІаіпТехІіО. Эта функция принимает строку, обрабаты¬ 
вает ее, выполняя только что описанные шаги, и возвращает новую 
строку с разметкой НТМЬ: 

ГипсГіоп МІітІРготРІаіпТехІ:(зиЬзесІ:) { 

// шаг 1 (поиск простого текста) 

зиЬ^ есі: = зиЬзесІ:. геріасе (/&/д, ”&атр;”). 

гер1асе(/</д, "Ш;"). 
гер1асе(/>/д, "&дИ;”); 

// шаг 2 

зиЬ^ есі: = зиЬ^есІ:. геріасе (/\г\п? |\п/д, "<Ьг>"); 

// шаг 3 

зиЬ]ес1: = зиЬ^есІ:. геріасе (/<Ьг>\з*<Ьг>/д, "</рхр>"); 

// шаг 4 

зиЬзесГ = "<р>" + зиЬ^есІ: + ”</р>"; 
геііигп зиЬа есі: ; 

} 

// Протестировать... 

ГіІітІРготРІаіпТехІ: ( "Тезі: . ”); // -> "<р>Тез1:.</р>" 

П1:т1РготР1аіпТех1:("Те5І:. \п"); // -> ’ЧрУГезГ.<Ьг></р>" 

ГіІітІРготРІаіпТехІ: (”Тез1:. \п\п”); // -> ”<р>Тез1і. </рхрх/р>” 

ГіІітІРготРІаіпТехІ: (”Тез1:1.\пТез1:2."); // -> "<р>Тез1:1.<Ьг>Тез1:2.</р>" 

ГгГтІРготРІаіпТехІ: ( '’ТезіІ Дп\пТез1:2. // -> "<р>Тез1:1.</рхр>Тез1:2.</р>” 
ГіІітІРготРІаіпТехІ:(”< АТ&Т >"); // -> ”<р>&іі; АТ&атр;Т &ді:</р>” 

В конец фрагмента программного кода добавлено несколько примеров 
результатов работы этой функции применительно к различным испы¬ 
туемым строкам. Тем, кто не знаком с языком ^ѵа8сгірі, следует обра¬ 
тить внимание на модификатор /д, добавляемый в конец каждого лите¬ 
рала регулярного выражения, который вынуждает метод гер1асе() за¬ 
местить все совпадения с шаблоном, а не только самое первое. Метапо¬ 
следовательность \п, присутствующая в строке с испытуемым текстом, 
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в языке ^ѵа8сгір! добавляет символ перевода строки (позиция ОхОА 
в таблице А8СІІ) в строковый литерал. 

Обсуждение 

Шаг 1: замена специальных символов НТМІ. 
мнемоническими ссылками 

Проще всего реализовать этот шаг, выполнив три отдельные операции 
поиска с заменой (ранее в табл. 9.3 приводился список замещающих 
мнемоник). Для глобальных операций поиска с заменой в ЗаѵаЗсгірІ 
всегда используются регулярные выражения, но в других языках про¬ 
граммирования можно получить более высокую производительность, 
выполняя обычную операцию поиска с заменой по простому тексту. 

Шаг 2: замена всех разрывов строк тегом <Ьг> 

На этом шаге для поиска разрывов строк в соответствии с соглашения¬ 
ми для ѴѴт<1олѵз/М8-В08 (СКЬЕ), ІШІХ/Ьіпих/08 X (ЬЕ) и устарев¬ 
шей версии Мае 08 (СК) используется регулярное выражение <\г\п?|\п>. 
Пользователи Регі 5.10 и РСКЕ 7 могут использовать специальный ме¬ 
тасимвол <\П> (обратите внимание на верхний регистр символа К) вместо 
сопоставления с различными последовательностями, обозначающими 
разрывы строк. 

Замена всех разрывов строк тегами <Ьг> перед добавлением тегов абза¬ 
цев на следующем шаге позволяет сохранить простоту всего действия, 
так как дает возможность добавить пробельный символ между тегами 
</р><р> в последующей операции поиска с заменой. Это поможет сохра¬ 
нить код разметки НТМЬ удобочитаемым, не смешивая все вместе. 

Если предпочтительнее использовать одиночные теги в стиле ХНТМЬ, 
то вместо замещающего текста «<Ьг>» следует использовать «<Ьг*/>»* 
Кроме того, чтобы учесть это изменение, необходимо изменить регуляр¬ 
ное выражение, применяемое на третьем шаге. 

Шаг 3: замена двойных тегов <Ьг> на </р><р> 

Наличие двух разрывов строки, следующих подряд, отмечает конец од¬ 
ного абзаца и начало другого, поэтому замещающий текст для этого 
шага содержит закрывающий тег </р>, за которым следует открываю¬ 
щий тег <р>. Если испытуемый текст состоит из единственного абзаца 
(то есть в нем отсутствуют двойные разрывы строк), подстановка произ¬ 
водиться не будет. На шаге 2 было заменено несколько разрывов строк 
(вместо которых в тексте были оставлены теги <Ьг>), поэтому на данном 
шаге можно было бы выполнить операцию поиска с заменой простого 
текста. Однако применение регулярного выражения упрощает работу 
и позволяет игнорировать пробельные символы между разрывами стро¬ 
ки. Дополнительные символы пробела все равно не отображаются в до¬ 
кументе НТМЬ. 
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Если создается фрагмент разметки ХНТМЬ, и поэтому разрывы строк 
были замещены текстом «<Ьг*/>» вместо «<Ьг>», необходимо заменить ре¬ 
гулярное выражение, используемое на этом шаге, на <<Ъг»/>\з*<Ъг*/>>. 

Шаг 4: заключить весь текст в теги <р>-</р> 

Шаг 3 добавляет разметку между абзацами. Теперь необходимо доба¬ 
вить тег <р> в самое начало испытуемого текста и закрывающий тег 
</р> в самый конец. Этот шаг завершает процесс, будь в тексте 1 абзац 
или 100. 

См. также 

Рецепт 4.10, включающий дополнительные сведения о метасимволе <\В> 
из диалектов Регі и РСКЕ и показывающий, как организовать совпаде¬ 
ние с дополнительными, необычными разделителями строк, которые 
поддерживаются метасимволом <\В>. 

Рецепт 9.6, где рассказывается, как декодировать именованные и чис¬ 
ловые мнемоники в стиле ХМЪ. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 объясняется, как искать совпаде¬ 
ния с непечатаемыми символами. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.8 описывается применение оператора вы¬ 
бора. В рецепте 2.12 объясняется, как организовать сопоставление с по¬ 
вторяющимися комбинациями символов. 

9.6. Декодирование мнемоник ХМІ. 

Задача 

Требуется преобразовать все мнемоники, определяемые стандартом 
ХМЬ, в соответствующие им символы. Преобразование должно распо¬ 
знавать не только именованные мнемоники (такие как &атр;, &11; и &дио1:;), 
но и числовые (как в десятичной форме записи, например: &#0931; или 
&#931;, так и в шестнадцатеричной: &#хОЗАЗ;, &#хЗАЗ; или &#хЗаЗ;). 

Решение 

Регулярное выражение 

&(? :#([0-9]+) |#х([0-9а-'ГА-Р]+) | ([0-9а-2А-2]+)); 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуІЬоп, КиЬу 

Данное регулярное выражение состоит из трех сохраняющих групп. Но 
только одна из них принимает участие в каждом конкретном сопостав¬ 
лении и сохраняет совпавший текст. Использование трех групп, как 
в данном случае, позволяет легко проверить тип совпавшей мнемоники. 
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Замена совпадений соответствующими символами 

Только что представленное регулярное выражение можно применять 
в комбинации с программным кодом из рецепта 3.16. Примеры кода, 
что приводятся ниже, демонстрируют порядок выполнения поиска с за¬ 
меной, когда замещающий текст генерируется во время выполнения. 

При создании собственной функции, генерирующей замещающий текст, 
определить соответствующий замещающий символ можно с помощью 
анализа обратных ссылок. Если совпадение найдено группой 1, обрат¬ 
ная ссылка 1 будет хранить числовую мнемонику в десятичной форме 
записи, возможно, с ведущими нулями. Если совпадение найдено груп¬ 
пой 2, обратная ссылка 2 будет хранить числовую мнемонику в шест¬ 
надцатеричной форме записи, возможно, с ведущими нулями. Если сов¬ 
падение найдено группой 3, обратная ссылка 3 будет хранить имено¬ 
ванную мнемонику. Для преобразования можно использовать объект 
поиска - словарь, хеш или другую структуру данных, наиболее удоб¬ 
ную для отображения именованных мнемоник в соответствующие им 
символы, - и с его помощью быстро определять символ для использова¬ 
ния в замещающем тексте. 

В следующем разделе на примере программного кода на ^ѵаЕсгір! де¬ 
монстрируется, как все это делается. 

Пример на іаѵаЗсгірі 

// Принимает совпадение ($0) и обратные ссылки; 

// возвращает замещающий текст 
Іипсііоп са11Ьаск($0, $1, $2, $3) { 
ѵаг сбагСобе; 

// Объект поиска, отображающий имена в десятичные коды 
// Эквивалентные шестнадцатеричные коды указаны в комментариях 
ѵаг патез = { 

циоі: : 34, // 0x22 
атр: 38, // 0x26 
ароз: 39, // 0x27 
11:: 60, // ОхЗС 

ді: 62 // ОхЗЕ 

}; 


// Десятичная мнемоника 

і-г ($1) { 

сбагСобе = ра гзеіпі: ($1, 10); 

// Шестнадцатеричная мнемоника 
} еізе іі ($2) { 

сбагСобе = ра гзеіпі: ($2, 16); 

// Именованная мнемоника; 

// выполняется отображение с помощью объекта поиска 
} еізе іТ ($3 && ($3 іп патез)) { 
сбагСобе = патез[$3]; 

// Недопустимая или неизвестная мнемоника 
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} еізе { 

геТигп $0; // Вернуть само совпадение 

} 

// Вернуть символ 

геіигп 31 гіпд. 1 готСОагСосІе(сізагСосІе); 

} 

// Заменить все мнемоники символами 
зи^есі: = зиЬ]есі:. гер1асе( 

/&(?:#([0-9]+)|#х([0-9а-ГА-Р]+)|([0-9а-2А-2]+));/д, 

саІІЬаск); 

Обсуждение 

Регулярное выражение и пример кода, показанные выше в этом рецеп¬ 
те, созданы для декодирования фрагментов текста в стиле ХМЬ, а не 
полных ХМЬ-доку ментов. Регулярное выражение может пригодиться 
для преобразования содержимого в формате ХМЬ или (Х)НТМЬ в про¬ 
стой текст, но имейте в виду, что в нем отсутствуют какие-либо ограни¬ 
чения на местонахождение именованных или числовых мнемоник в ис¬ 
пытуемом тексте. Например, в нем не предусмотрено никакой специ¬ 
альной обработки, которая позволяла бы пропускать блоки СБАТА 
в ХМЬ или сценарии в НТМЬ. 

Пример на ^ѵаЗсгірі; преобразует числовые мнемоники в десятичном 
и шестнадцатеричном представлениях в соответствующие им символы 
и дополнительно отображает пять именованных мнемоник, определяе¬ 
мых стандартом ХМЬ: &дио1; (“)> &атр; (&), &ароз; ('), &И; (<) и &д1; (>). 
Стандарт НТМЬ определяет еще целое множество именованных мнемо¬ 
ник, которые не были упомянуты здесь. 1 Следуя способу, предложенно¬ 
му в примере кода, легко можно добавить столько именованных мнемо¬ 
ник, сколько потребуется. 

Пример на ^ѵаЗсгір! превратит следующий текст: 

"&11; &Ьодиз; Рес &#65;&#0065; &атр;11; Рех &#х41;&#х041; &д!; 

в строку: 

"< &Ьодиз; Рес АА &11; Нех АА >" 

^ѵаЗсгірі; не поддерживает кодовые пункты Юникода выше ТЛ-БТГГ, 
поэтому данный пример (точнее, метод ЗІгіпд.ГготСРагСоРеО, используе¬ 
мый в нем) дает правильный результат только для числовых мнемоник 
не выше &#хРРРР; (в шестнадцатеричном представлении) и &#65535; (в де¬ 
сятичном представлении). В большинстве случаев это не является про¬ 
блемой, потому что символы с кодами выше этого диапазона редко ис¬ 
пользуются на практике. Числовые мнемоники со значениями выше 


і 


Стандарт НТМЬ 4.01 определяет 252 именованные мнемоники, а стандарт 
НТМЬб - более 2000. 
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этого диапазона считались недопустимыми в первой редакции стандар¬ 
та ХМЬ 1.0. 



Некоторые языки программирования и библиотеки для работы 
с ХМЬ имеют встроенные функции для декодирования мнемоник 
ХМЬ или НТМЬ. Например, в РНР 4.3 и выше имеется функция 
ІЦт1_епТі1:у_сІесосІе(). Но иногда бывает полезно написать свой метод, 
потому что такие функции отличаются набором распознаваемых 
ими мнемоник. Некоторые функции, например С6І::ипе$сареНТМІ_() 
в КиЪу, распознают даже меньше пяти именованных мнемоник, 
определяемых стандартом ХМЬ. 


См. также 

Рецепт 9.5, где объясняется, как преобразовать простой текст в формат 
НТМЬ добавлением тегов <р> и <Ьг>. На первом шаге в этом процессе вы¬ 
полняется кодирование символов &, < и > в именованные мнемоники. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.9 рассказывается о группировке. В рецепте 2.12 
объясняется, как организовать сопоставление с повторяющимися ком¬ 
бинациями символов. 


9.7. Поиск определенных атрибутов 
в ХМІ_-подобных тегах 

Задача 

Требуется отыскать внутри файла (Х)НТМЬ или ХМЬ теги, содержа¬ 
щие определенный атрибут, такой как ісі. 

Этот рецепт охватывает несколько вариантов одной и той же задачи. 
Предположим, что необходимо обеспечить совпадение со всеми типами 
строк, приведенными ниже, с помощью отдельных регулярных выра¬ 
жений: 

• Теги с атрибутом ісі. 

• Теги <сііѵ> с атрибутом ісі. 

• Теги с атрибутом ісі, имеющим значение ту-ісі. 

• Теги, содержащие имя класса ту-сіазз внутри значения атрибута 
сіазз (имена классов отделяются пробельными символами). 

Решение 

Теги с атрибутом ісі (на скорую руку) 

Если необходимо быстро выполнить поиск в текстовом редакторе, обес¬ 
печивающем возможность предварительного просмотра результатов, 
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добиться цели поможет следующее (максимально упрощенное) регу¬ 
лярное выражение: 

<[ ~> ]+\зісі\Ь[ ~> ] *> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуІЬоп, КиЪу 

Ниже то же регулярное выражение разложено в режиме свободного 
форматирования: 

< # Начало тега 

[~>]+ # Имя тега, атрибуты и пр. 

\з іб \Ь # Имя искомого атрибута как целое слово 

[">]* # Оставшаяся часть тега, включая значение атрибута іб 

> # Конец тега 

Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЬу 


Теги с атрибутом ісі (более надежно) 

В отличие от только что рассмотренного регулярного выражения, сле¬ 
дующий подход к этой же задаче поддерживает поиск значений атрибу¬ 
тов в кавычках, содержащих литерал >, и не будет выдавать совпадение 
для тегов, в которых последовательность символов іб содержится в од¬ 
ном из значений атрибутов: 


| I ’ ’ )+?\зіб\з*=\з*( "['*"]*" | 

(?:Г>’" ]ГГ”]*ТГ’]*’)*> 


Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуіЬоп, КиЬу 


В режиме свободного форматирования: 


(?: [~>”'] 

[ ]* 

I 'Г']*’ 

)+? 

\з Іб 
\з* = \з* 

( ■■[-]*■■ I ■[-■]*■ 

(?: ГУ] 

| -[-]*•■ 

I ’Г'К 

)* 


# Имена тега и атрибута и пр. 

# и значения атрибутов в кавычках 

# Имя искомого атрибута как целое слово 

# Разделитель имени-значения атрибута 

# Сохранить значение атрибута в обратной ссылке 1 

# Остальные символы 

# и значения атрибутов в кавычках 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЬу 
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Это регулярное выражение сохраняет значение атрибута ісі и окружаю¬ 
щие его кавычки в обратной ссылке 1. Это позволит использовать зна¬ 
чение в программном коде за пределами регулярного выражения или 
в строке замещающего текста. Если значение атрибута не потребуется, 
можно вместо сохраняющей группировки использовать несохраняю¬ 
щую группу или вообще заменить всю последовательность <\з*=\з*("[~" 
']*’)> метасимволом <\Ь>. В этом случае совпадение с оставшейся 
частью тега, в том числе и со значением атрибута ісі, обеспечит осталь¬ 
ная часть регулярного выражения. 


Теги <сііѵ> с атрибутом ісі 

Чтобы отыскать определенный тег, в начало предыдущего регулярного 
выражения необходимо добавить его имя и внести еще пару незначи¬ 
тельных изменений. В следующем примере после открывающей угло¬ 
вой скобки <<> мы добавили <сііѵ\з>. Метасимвол <\з> (пробельный сим¬ 
вол) гарантирует невозможность совпадения с тегами, чьи имена просто 
начинаются с трех букв «сііѵ». Заранее известно, что за именем тега обя¬ 
зательно будет следовать пробельный символ, потому что у тегов, кото¬ 
рые требуется отыскать, имеется по крайней мере один атрибут (ісі). До¬ 
полнительно мы заменили последовательность <+?\зісІ> на <*?\Ьісі>, чтобы 
выражение работало, когда ісі является первым атрибутом тега и отсут¬ 
ствуют дополнительные отделяющие символы (кроме первого пробела) 
после имени тега: 

<с!іѵ\$(? : [">"' ] | | )*?\Ыс1\з*=\з*| 

(? : ['*>" 1 ] | 1 ’["’]*’)*> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуіЬоп, КиЪу 


То же выражение в режиме свободного форматирования: 


<біѵ \з 
(?: Г>”’] 

| **р^*»т *» 

[ ]* 

I ’Г'К 

)*? 

\Ь ісі 

\з* = \з* 

( "Г"]*" | 

(?: Г>"’] 

| ■■[-]*" 

I 'Г']*’ 

)* 


# Имя тега и следующий за ним пробельный символ 

# Имена тега и атрибута и пр. 

# и значения атрибутов в кавычках 

# Имя искомого атрибута как целое слово 

# Разделитель имени-значения атрибута 

) # Сохранить значение атрибута в обратной ссылке 1 

# Остальные символы 

# и значения атрибутов в кавычках 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуѣЬоп, КиЬу 
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Теги с атрибутом ісі, имеющим значение «ту-ісі» 

На этот раз, по сравнению с регулярным выражением из раздела «Теги 
с атрибутом ісі (более надежно)», мы удалили сохраняющие круглые 
скобки вокруг значения атрибута ісі, потому что оно уже известно зара¬ 
нее. В частности, подвыражение <("[~"]*"| '["']*’)> мы заменили на<(?:"ту- 
ісі” | * ту-ісі ' )>: 

| I ’ ’ )+?\зісі\5*-\з* (?: "ту-ісГ | 'ту-ісі ’)и 

(?: [~>" ' ]||'["’]*')*> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірѣ, РСКЕ, Регі, РуІЬоп, КиЬу 


И версия в режиме свободного форматирования: 


< # 

(?: ГУ] 

| "[-]*” 
I ■["■]*■ 
)+? 

\з ІСІ 

\з* = \з* 
(?: "ту-ісі" 
| ' ту-ісі ' 
(?: ['*>"•] 

| ••[-"]*" 
I Т']*' 

) * 


# Имена тега и атрибута и пр. 

# и значения атрибутов в кавычках 

# Имя искомого атрибута как целое слово 

# Разделитель имени-значения атрибута 

# Искомое значение атрибута, 

# окруженное кавычками или апострофами 

# Остальные символы 

# и значения атрибутов в кавычках 


Параметры: нечувствительность к регистру символов, режим свобод¬ 
ного форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуЙюп, КиЬу 


В подвыражении <(? :”ту-ісі" | ’ту-ісі’ )> можно было бы избежать повторе¬ 
ния «ту-ісі» (немного потеряв в эффективности), использовав подвыра¬ 
жение <(['" ])ту-ісі\1>. Применение сохраняющей группировки и обрат¬ 
ной ссылки гарантирует, что искомое значение начинается и заканчи¬ 
вается кавычками одного и того же типа. 


Теги, содержащие «ту-сІа$$» в значении атрибута сІа$$ 

Если в предыдущих регулярных выражениях планка оправданности 
применения регулярного выражения еще не была преодолена, то в дан¬ 
ном случае, очевидно, мы достигли границы, за которой неразумно пы¬ 
таться решать задачу с помощью единственного регулярного выраже¬ 
ния. Разбиение процесса на несколько регулярных выражений помо¬ 
жет в достижении поставленной цели, поэтому мы разобьем поиск на 
три части. Первое регулярное выражение совпадает с тегами, второе 
отыскивает в них атрибут сіазз (и сохраняет его значение в обратной 
ссылке) и наконец выполняется поиск значения ту-сіазз. 
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Поиск тегов: 

<(?:[~>"' ] Г'[~']* ” I’’)+> 

Параметры: нет 

Диалекты: .1МЕТ, ^ѵа, ^ѵаВсгірІ, РСКЕ, Регі, РуіЪоп, КиЪу 

Рецепт 9.1 посвящен вопросам сопоставления с ХМЬ-подобными те¬ 
гами. Там объясняется, как действует только что представленное 
4*; регулярное выражение, и демонстрируются альтернативные реше¬ 
ния, обеспечивающие различную степень сложности и точности. 

Затем с помощью программного кода, который приводится в рецеп¬ 
те 3.13, можно выполнить поиск атрибута сіазз внутри каждого совпа¬ 
дения, используя следующее регулярное выражение: 

'Ч?:["> , "]ГГ"]*"І ' ’ )+?\зс1азз\з*=\з*(I Т’]*’) 

Параметры: нечувствительность к регистру символов 
Диалекты: .КЕТ, Заѵа, Заѵа8сгірі, РСКЕ, Регі, РуНюп, КиЪу 

Оно сохраняет все значение атрибута сіазз и окружающие его кавычки 
в обратной ссылке 1. Совпадение со всем, что находится перед атрибу¬ 
том сіазз, обеспечивает подвыражение < Л (?:[ Л >'”]|”[~”]*"Г[ Л ’]**) + ?>, кото¬ 
рое за один шаг перешагивает через значение в кавычках, чтобы избе¬ 
жать попыток поиска слова «сіазз» внутри значений других атрибутов. 
Правая часть выражения заканчивает совпадение, как только будет 
достигнут конец значения атрибута сіазз. Все, что в теге следует даль¬ 
ше, для нас не имеет никакого значения, поэтому нет никаких причин 
продолжать сопоставление до конца найденного тега. 

Символ крышки в начале регулярного выражения привязывает его 
к началу испытуемого текста. Это никак не влияет на совпадение, но он 
препятствует механизму регулярных выражений начинать новые по¬ 
пытки сопоставления (которые неизбежно потерпят неудачу) во всех 
позициях символов в строке, если сопоставление с начала строки оказа¬ 
лось неудачным. 

Наконец, если оба предыдущих регулярных выражения благополуч¬ 
но обнаружили совпадение, можно выполнить поиск в значении обрат¬ 
ной ссылки 1 второго регулярного выражения, используя следующий 
шаблон: 

[’"\5]ту-с1азз[’"\з] 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірѣ, РСКЕ, Регі, РуІЬоп, КиЪу 

Так как имена классов отделяются пробельными символами, имя ту- 
сіазз должно ограничиваться с обеих сторон либо пробельным симво¬ 
лом, либо вообще ничем. Если бы не тот факт, что имена классов могут 
включать дефисы, вместо двух несохраняющих групп можно было бы 
использовать метасимволы границы слова. Однако дефис создает гра- 
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ницы слова и поэтому подвыражение <\Ьту-с1азз\Ь> может совпасть с ча¬ 
стью имени поі-ту-сіазз. 

Обсуждение 

В разделе «Решение» этого рецепта уже подробно описано, как действу¬ 
ют эти регулярные выражения, поэтому мы не будет повторяться. Не 
следует забывать, что регулярные выражения часто бывают неидеаль¬ 
ным решением задачи поиска в разметке, особенно когда достигается 
уровень сложности, как в этом рецепте. Прежде чем задействовать та¬ 
кие регулярные выражения, всегда следует посмотреть, не лучше ли 
использовать альтернативные решения, такие как применение ХРаІЬ, 
парсера 8АХ или использование БОМ. Мы включили эти регулярные 
выражения, потому что найдется немало людей, которые захотят идти 
подобным путем, но не говорите, что мы вас не предупреждали. Хоте¬ 
лось бы надеяться, что мы смогли показать некоторые из проблем, воз¬ 
никающих при поиске в разметке, и помогли вам избежать еще более 
непродуманных решений. 

Регулярные выражения в этом рецепте написаны исходя из предпо¬ 
ложения, что значения атрибутов всегда будут заключены в кавыч¬ 
ки или апострофы. Значения атрибутов, не заключенные в кавыч¬ 
ки, не поддерживаются. 

См. также 

Рецепт 9.8, решающий концептуально противоположную задачу и оты¬ 
скивающий теги, не содержащие определенный атрибут. 

Рецепт 9.1, где показано, как отыскивать любые ХМЪ-подобные теги, 
обеспечивая достаточную терпимость к ошибкам в разметке. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.5 обсуждаются якорные метасимволы. В рецеп¬ 
те 2.6 говорится о границах слов. В рецепте 2.8 описывается примене¬ 
ние оператора выбора. В рецепте 2.9 рассказывается о группировке. 
В рецепте 2.10 обсуждаются обратные ссылки. В рецепте 2.12 объясня¬ 
ется, как организовать сопоставление с повторяющимися комбинация¬ 
ми символов. 

9.8. Добавление атрибута сеіізрасіпд в теги 
<1аЫе>, где этот атрибут отсутствует 

Задача 

Необходимо отыскать в файле (Х)НТМЬ и добавить сеіізрасіпд- ’0" во 
все таблицы, не имеющие атрибута сеіізрасіпд. 


* 






9.8. Добавление атрибута сеіізрасіпд в теги <іаЫе>, где этот атрибут отсутствует 659 


Этот рецепт служит примером добавления атрибутов в ХМЬ-подобные 
теги, которые еще не имеют этих атрибутов. Вы можете заменить имя 
тега и атрибута, а также значение атрибута на любое другое. 

Решение 

Выражение 1: упрощенное решение 

Для совпадения с тегами <іаЬ1е>, не содержащими слово сеіізрасіпд, 
можно использовать негативную опережающую проверку, как показа¬ 
но ниже: 

<іаЫе\Ь(?! [~>]*?\зсе11зрасіпд\Ь) ([">]*)> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Лѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуіИоп, КиЪу 

То же выражение в режиме свободного форматирования: 

<іаЫе \Ь # Совпадение с "<1аЫе”, 

# за которым следует граница слова 
(?! # Проверить несовпадение с выражением ниже 

[~>]*? # Любые атрибуты и пр. 

\з сеіізрасіпд \Ь # Совпадение с ''сеіізрасіпд" как с полным словом 

) 

([~>]*) # Сохранить атрибуты и пр. в обратной ссылке 1 

> 

Параметры: нечувствительность к регистру символов 
Диалекты: .МЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЪу 

Выражение 2: более надежное решение 

В следующем регулярном выражении мы заменили оба экземпляра ин¬ 
вертированного символьного класса <[~>]> из упрощенного решения на 
<(?:[~> ,,, ]Г[ # '"]* ,, | , ["’]*’)>- Этот более длинный шаблон поглощает значе¬ 
ния атрибутов в кавычках или апострофах за один шаг. 

<іаЫе\Ь(?! (?:[">"'] | | ’ ' )*?\зсе11зрасіпд\Ь) и 

((?:[ #ч >" ІТ"' ]*')*)> 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа. у ЛѵаВсгірі;, РСКЕ, Регі, РуЪЬоп, КиЪу 

А ниже это же выражение в режиме свободного форматирования: 

<іаЫе \Ь # Совпадение с ’ЧіаЬІе" как с полным словом 
(?! # Проверить несовпадение с выражением ниже 

(?:[">"' ] I "[**”]*" I [^ ]* )*? 

\з сеіізрасіпд \Ь 

) 

( # Сохранить атрибуты и пр. в обратной ссылке 1 

) 

> 
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Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

Вставка нового атрибута 

Все регулярные выражения, показанные в решениях 1 и 2, могут ис¬ 
пользовать один и тот же замещающий текст, потому что все регуляр¬ 
ные выражения сохраняют атрибуты совпавшего тега <іаЬ1е> (если тако¬ 
вые имеются) в обратной ссылке 1. Это позволяет вставлять атрибуты 
обратно как часть замещающего значения при добавлении нового атри¬ 
бута сеіізрасіпд. Ниже приводятся необходимые замещающие строки: 

<ІаЫе*се1І5расіпд=”0”$1> 

Диалекты замещающего текста: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ, Регі, РНР 

<іаЫе*се11зрасіпд=''0''\1> 

Диалекты замещающего текста: РуИюп, КиЬу 

В рецепте 3.15 показано, как реализовать поиск с заменой, когда в заме¬ 
щающем тексте используется обратная ссылка. 

Обсуждение 

Чтобы понять, как действуют эти регулярные выражения, разберем 
сначала упрощенное решение. Это решение, как будет показано, содер¬ 
жит четыре логические части. 

Первая часть, <<іаЬ1е\Ь>, совпадает со строкой литералов <іаЫе, за кото¬ 
рой следует граница слова (<\Ь>). Граница слова предотвращает возмож¬ 
ность совпадения с тегами, имена которых просто начинаются с после¬ 
довательности символов «ІаЫе». Несмотря на то что это может пока¬ 
заться необязательным при работе с (Х)НТМЬ (поскольку в этом языке 
разметки отсутствуют теги с именами, например, «ІаЫеІ», «ІаЫеаи» 
или «іаЫезрооп»), тем не менее это хорошая практика, которая помо¬ 
жет избежать появления ошибок, когда потребуется адаптировать это 
регулярное выражение для поиска других тегов. 

Вторая часть выражения, <(?![~>]*?\зсе11зрасіпд\Ь)>, - это негативная 
опережающая проверка. Она не поглощает символы испытуемого тек¬ 
ста, совпавшие с ней, она проверяет, потерпит ли неудачу попытка со¬ 
поставления, если слово сеіізрасіпд появится где-нибудь в пределах от¬ 
крывающего тега. Так как предполагается добавить атрибут сеіізрасіпд 
во все совпадения, необходимо исключить совпадение с тегами, уже 
имеющими этот атрибут. 

Так как опережающая проверка заглядывает за текущую позицию 
попытки сопоставления, в ней используется начальная конструкция 
<[~>]*?>, позволяющая в процессе поиска заглядывать вперед настолько, 
насколько потребуется, пока не будет обнаружено нечто, похожее на ко¬ 
нец тега (первое вхождение символа >). Остальная часть подвыражения 
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в опережающей проверке (<\зсе11зрасіпд\Ь>) просто совпадает со строкой 
литералов «сеіізрасіп^» как с полным словом. Мы предусмотрели про¬ 
верку совпадения с начальным пробельным символом (<\з>), потому что 
он всегда должен отделять имя атрибута от имени тега или от предыду¬ 
щих атрибутов. Мы предусмотрели проверку совпадения с границей сло¬ 
ва вместо совпадения с другим пробельным символом, потому что грани¬ 
ца слова полностью обеспечивает совпадение со строкой сеіізрасіпд как 
с целым словом, даже если атрибут не имеет значения или если непо¬ 
средственно за именем атрибута следует знак равенства. 

При таком решении, если регулярное выражение найдет строку сеіі¬ 
зрасіпд перед >, попытка сопоставления потерпит неудачу. Если опере¬ 
жающая проверка не найдет сеіізрасіпд до того, как ей встретится >, 
попытка сопоставления сможет продолжиться. 

Двигаясь дальше, мы переходим к третьей части регулярного выраже¬ 
ния: <([">]*)>. Это инвертированный символьный класс со следующим 
за ним квантификатором «ноль или более раз», обернутый в сохраняю¬ 
щую группу. Сохранение этой части совпадения позволяет легко воз¬ 
вращать назад атрибуты, присутствующие в совпавшем теге, как часть 
замещающего текста. В отличие от негативной опережающей провер¬ 
ки, эта часть фактически добавляет атрибуты тега в строку совпадения 
с регулярным выражением. 


Наконец, регулярное выражение совпадает с литералом <>> в конце тега. 

Регулярное выражение 2, так называемая более надежная версия, дей¬ 
ствует точно так же, как и только что описанное выражение, за исклю¬ 
чением того, что оба экземпляра инвертированного символьного класса 
<[~>]> были заменены на <(?:[~>' ,, ]|"[~ ,, ]* м | , [~’]*’)>- Это позволило повы¬ 
сить надежность регулярного выражения: во-первых, добавилась под¬ 
держка значений атрибутов в кавычках, содержащих символ >, а во- 
вторых, гарантируется невозможность совпадения с тегами, содержа¬ 
щими в значениях атрибутов слова «сеіізрасіпд». 


Что касается замещающего текста, он может использоваться в обеих 
версиях регулярного выражения и будет замещать каждый совпавший 
тег <іаЬ1е> новым тегом, включающим се11зрасіпд="0" в качестве перво¬ 
го атрибута, за которым следуют все остальные атрибуты, имевшиеся 
в оригинальном теге (обратная ссылка 1). 


См. также 

Рецепт 9.7, решающий концептуально противоположную задачу и оты¬ 
скивающий теги, содержащие определенный атрибут. 

Рецепт 9.1, где показано, как отыскивать любые ХМЬ-подобные теги, 
обеспечивая достаточную терпимость к ошибкам в разметке. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.6 говорится о границах слов. В рецепте 2.8 описы- 
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вается применение оператора выбора. В рецепте 2.9 рассказывается 
о группировке. В рецепте 2.12 объясняется, как организовать сопостав¬ 
ление с повторяющимися комбинациями символов. В рецепте 2.16 рас¬ 
сказывается об опережающих и ретроспективных проверках. 

9.9. Удаление ХІѴП-подобных комментариев 

Задача 

Требуется удалить комментарии из документа (Х)НТМЬ или ХМЪ. На¬ 
пример, требуется удалить комментарии из веб-страницы, прежде чем 
передать ее браузеру, чтобы уменьшить размер файла страницы или что¬ 
бы выполнить поиск без риска найти совпадение внутри комментариев. 

Решение 

Отыскать комментарии совсем несложно благодаря наличию мини¬ 
мальных квантификаторов. Ниже приводится выражение, выполняю¬ 
щее эту работу: 

<!*?--> 

Параметры: точке соответствуют границы строк 
Диалекты: .ЫЕТ, Заѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЪу 

Достаточно прямолинейно. Как обычно, из-за отсутствия в ^ѵа8сгір1 
режима «точке соответствуют границы строк» необходимо заменить 
точку символьным классом, включающим все символы, чтобы регуляр¬ 
ное выражение могло совпадать с многострочными комментариями. 
Ниже приводится версия выражения для ^ѵа8сгір1: 

<!—[\з\3]*?--> 

Параметры: нет 

Диалекты: .ИЕТ, Заѵа, ^ѵа8сгір1, РСКЕ, Регі, РуІЬоп, КиЬу 

Чтобы удалить комментарии, нужно заменить все совпадения пустыми 
строками (то есть ничем). В рецепте 3.14 приводится программный код, 
выполняющий замену всех совпадений с регулярным выражением. 

Обсуждение 

Принцип действия 

В начале и в конце этого регулярного выражения присутствуют строки 
литералов <<!—> и <-->>. Поскольку ни один из этих символов не имеет 
специального значения в регулярных выражениях (за исключением де¬ 
фиса, который в символьных классах образует диапазоны), их не требу¬ 
ется экранировать. Остается только исследовать фрагмент <.*?> или 
<[\з\8]*?> в середине выражения. 
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Благодаря режиму «точке соответствуют границы строк» точка в пер¬ 
вом регулярном выражении совпадает с любым одиночным символом. 
В версии для ^ѵа8сгір! место точки занимает символьный класс <[\з\3]>. 
Однако эти два регулярных выражения полностью эквивалентны. Ме¬ 
тасимволу <\з> соответствуют любые пробельные символы, а метасим¬ 
волу <\5> соответствуют все остальные символы. Их объединение обес¬ 
печивает совпадение с любым символом. 

Минимальный квантификатор <*?> повторяет предшествующий ему 
элемент «любой символ» ноль или более раз, минимально возможное 
число раз. Благодаря этому предшествующая конструкция будет повто¬ 
ряться, пока не будет встречено первое вхождение -->, вместо того чтобы 
сразу совпасть до конца испытуемого текста, а затем выполнять возвра¬ 
ты, пока не будет встречено последнее вхождение -->. (Подробнее о том, 
как выполняются возвраты с минимальными и максимальными кван¬ 
тификаторами, рассказывается в рецепте 2.13.) Эта стратегия прекрасно 
работает, потому что ХМЬ-подобные комментарии не могут вкладывать¬ 
ся друг в друга. Другими словами, комментарии всегда оканчиваются 
самым первым (левым) вхождением -->. 

Когда нельзя удалять комментарии 

Большинству веб-разработчиков известно, что комментарии НТМЪ 
внутри элементов <зсгірІ> и <з1у1е> используются для обеспечения об¬ 
ратной совместимости с древними версиями браузеров. В настоящее 
время это стало бессмысленным шаманством, но оно продолжает жить, 
отчасти благодаря простому копированию фрагментов разметки при 
создании новых страниц. Предположим, что при удалении коммента¬ 
риев из документа (Х)НТМЬ вы не хотели бы уничтожить программный 
код ЗаѵаЭсгірІ и таблицы С88. Вероятно, вам также захочется оставить 
содержимое элементов <1ехіагеа>, разделов СБАТА и значения атрибу¬ 
тов внутри тегов. 

Выше говорилось, что удалить комментарии совсем несложно. Как ока¬ 
зывается, эти слова справедливы, только если игнорировать некоторые 
необычные области разметки (Х)НТМЬ или ХМЬ, где изменяются син¬ 
таксические правила. Другими словами, если игнорировать сложные 
части проблемы, то все просто. 

Конечно, в некоторых случаях можно было бы оценить разметку, кото¬ 
рую требуется обработать, и решить, что эти проблемы вполне можно 
игнорировать, возможно, потому, что вы сами писали эту разметку 
и знаете, чего в ней можно ожидать. Упрощенный подход может исполь¬ 
зоваться при выполнении операции поиска с заменой в текстовом редак¬ 
торе, позволяющем проверять каждое совпадение перед его удалением. 

Но вернемся назад и посмотрим, как обойти эти проблемы. В разделе 
«Игнорирование необычных разделов (Х)НТМЬ и ХМЬ» в рецепте 9.1 
некоторые из этих проблем уже рассматривались в контексте сопостав¬ 
ления с ХМЬ-подобными тегами. Подобный подход можно использо- 
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вать для поиска комментариев. Чтобы сначала отыскать необычные 
разделы, можно использовать программный код из рецепта 3.18 и регу¬ 
лярное выражение, которое приводится ниже, а затем замещать ком¬ 
ментарии, найденные между совпадениями, пустыми строками (то есть 
удалить комментарии): 

<(зсгірт | зТуІеІТехТагеаІТіІІе |хтр)\Ь(?: [~>" ’] I "[*'"]*" I ’ 

# *?</\1\з*> | <р1аіп1:ех1:\Ь(? : ']Г[~"]*"Г["’]*’)* > -*М 

<[3“2](?]|”[ ]*" | ]**)*>|<!\[С0АТА\[.*?]]> 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуіЬоп, КиЬу 

Добавим несколько пробелов и комментариев в режиме свободного фор¬ 
матирования, чтобы сделать это регулярное выражение более простым 
для понимания: 

# Специальный элемент: тег и содержимое 

<( зсгірі | зііуіе | іехіагеа | ііііе | хтр )\Ь 
(?: ['*>"' ] | | 

> •*? </\1\з*> 

# <р1аіпіехі/> простирается до конца испытуемой строки 

<р1аіпіехі\Ь 

(? : [~>” | | ’ [**']*’ )* 

У . * 

# Обычный элемент: только тег 

<[а- 2 ] # Первый символ имени тега 

(?: [~>"' ] | "[*'"]*" I ’["']*’)* 

> 


# Раздел СОАТА 
<!\[С0АТА\[ .*? ]]> 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк, режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуіЬоп, КиЬу 


Ниже приводится эквивалентная версия для диалекта ^ѵа8сгірі, в ко¬ 
тором отсутствуют оба режима: «точке соответствуют границы строк» 
и «режим свободного форматирования»: 


<( зсгірі: | зіуіе | Ііехііагеа | Ііііііе |хтр)\Ь(? | I ’ )*>«-! 

[\з\3 ] *?</\1\з*> | <р1аіпіехі\Ь(? : [~>"' ] | "Г"]*" | •["’]*' )*>[\з\3]* М 
<[а- 2 ](? | | \[С0АТА\[[\з\3]*?]]> 


Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, Руііюп, КиЬу 
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Варианты 

Поиск допустимых комментариев ХМІ. 

В действительности существует еще несколько синтаксических правил, 
касающихся комментариев в разметке (Х)НТМЬ и ХМЬ, помимо того, 
что комментарии начинаются с <!-- и заканчиваются В частности: 

• Комментарии не могут содержать два дефиса, следующие подряд. 
Например, <!-- сот--теп1: --> - это недопустимый комментарий, по¬ 
тому что в нем имеются два дефиса, следующие подряд. 

• Закрывающей последовательности не может предшествовать дефис, 

являющийся частью комментария. Например, <!-- соттепі: ---> - 
это недопустимый комментарий, но полностью пустой комментарий 
<!-> допускается. 

• Между -- и > в закрывающей последовательности может присутство¬ 
вать пробельный символ. Например, <!-- соттепі - это полно¬ 
стью допустимый комментарий. 

Эти правила легко оформить в виде регулярного выражения: 

<!-Г-]*(?:-Г-]+)*-\з*> 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуЙюп, КиЬу 

Обратите внимание, что совпадение с содержимым комментария между 
открывающей и закрывающей последовательностями является необя¬ 
зательным, поэтому данное выражение будет совпадать с пустым ком¬ 
ментарием <!->. Однако если между ограничителями появится де¬ 

фис, за ним должен следовать хотя бы один символ, отличный от дефи¬ 
са. А так как внутри комментария не может присутствовать два дефиса, 
идущих подряд, минимальный квантификатор в регулярном выраже¬ 
нии в начале рецепта был заменен максимальными квантификатора¬ 
ми. Минимальные квантификаторы тоже будут работать, но их исполь¬ 
зование здесь приведет к ненужным возвратам (рецепт 2.13). 

Некоторые читатели, посмотрев на это новое регулярное выражение, 
могут спросить, почему здесь дважды используется инвертированный 
символьный класс <[~-]> вместо того, чтобы просто поместить дефис в не¬ 
сохраняющую необязательную группу (то есть <<!--(? :-?[~-]+)*--\з*>>). 
На то есть отличная причина, которая возвращает нас к обсуждению 
«катастрофических возвратов» из рецепта 2.15. 

Так называемые вложенные квантификаторы всегда требуют особо¬ 
го внимания, чтобы избежать ситуации катастрофических возвратов. 
Квантификатор считается вложенным, когда он присутствует внутри 
группы, которая сама повторяется квантификатором. Например, шаб¬ 
лон <(?:-?[~-]+)*> содержит два вложенных квантификатора: знак вопро¬ 
са, следующий за дефисом, и знак плюс, следующий за инвертирован¬ 
ным символьным классом. 
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Однако в действительности вложение квантификаторов само по себе не 
несет угрозы производительности. Опасность, скорее, заключается в по¬ 
тенциально огромном числе способов, которыми внешний квантифи¬ 
катор <*> может комбинироваться с внутренними квантификаторами 
в процессе сопоставления с текстом. Если механизму регулярных вы¬ 
ражений не удается отыскать --> в конце частичного совпадения (как 
это требуется, если включить данный сегмент шаблона в регулярное 
выражение, совпадающее с комментариями), он должен опробовать все 
возможные комбинации повторений, прежде чем убедиться в безус¬ 
пешности попытки и перейти к следующей позиции. Число возможных 
вариантов увеличивается чрезвычайно быстро с каждым дополнитель¬ 
ным символом, который механизм должен попробовать сопоставить. 
Однако во вложенных квантификаторах нет ничего опасного, если по¬ 
добная ситуация невозможна. Например, шаблон <(?:-["-]+)*> не пред¬ 
ставляет угрозы, несмотря на то что содержит вложенный квантифика¬ 
тор <+>, потому что теперь сопоставление с дефисом должно произво¬ 
диться точно один раз на каждом повторении группы и потенциальное 
число точек возврата увеличивается линейно с увеличением длины ис¬ 
пытуемого текста. 

Еще один способ избежать проблемы возвратов, описанной только что, 
заключается в использовании атомарной группировки. Следующее вы¬ 
ражение эквивалентно первому в этом разделе, но оно на несколько 
символов короче и не поддерживается диалектами ^ѵаВсгірі и РуНюп: 

<!-(?>-?Г-]+)*-\з*> 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, РСКЕ, Регі, КиЬу 

Подробное описание атомарной группировки (и близких к ней захваты¬ 
вающих квантификаторов) приводится в рецепте 2.14. 

Поиск допустимых комментариев НТМІ. 

Официально в стандарте НТМЬ 4.01 используются правила оформления 
комментариев, заимствованные из ХМЬ и описанные выше, но веб-брау¬ 
зеры никогда не обращали внимания на мелочи. Правила оформления 
комментариев в НТМЬб имеют два отличия от правил, используемых 
в ХМЬ, которые приближают их к правилам, которые фактически реа¬ 
лизуются браузерами. Во-первых, пробельные символы между -- и > 
в закрывающей последовательности считаются недопустимыми. Во-вто¬ 
рых, текст внутри комментария не может начинаться с > или -> (в веб¬ 
браузерах, стремящихся завершить комментарии как можно раньше). 

Ниже показаны правила оформления комментариев в НТМЬб, оформ¬ 
ленные в виде регулярного выражения: 

<!-( ? !- ? >)Г-]*( ? :-Г-]+)*--> 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЗсгірІ;, РСКЕ, Регі, РуНюп, КиЬу 
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В отличие от предыдущего регулярного выражения, совпадающего с до¬ 
пустимыми комментариями ХМЬ, в этом выражении отсутствует <\з*> 
перед завершающим символом <:>> и добавлена негативная опережающая 
проверка <(?!-?>)> сразу после открывающей последовательности <<!-->. 



В действительности, веб-браузеры используют более свободные пра¬ 
вила оформления комментариев, чем определены стандартом 
НТМЬ. Именно поэтому обычно предпочтительнее использовать бо¬ 
лее простые регулярные выражения <<!--.*?-->> (с включенным ре¬ 
жимом «точке соответствуют границы строк») или <<!—[\з\3]*?—>>, 
представленные в разделе «Решение». 


См. также 

Рецепт 9.10, где показано, как отыскивать определенные слова, встре¬ 
чающиеся внутри ХМЬ-подобных комментариев. 

Рецепты 7.5, 7.6 и 7.7, объясняющие, как организовать сопоставление 
с комментариями в исходном программном коде на различных языках 
программирования. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.4 говорится, что точке соответствуют лю¬ 
бые символы. В рецепте 2.6 говорится о границах слов. В рецепте 2.8 
описывается применение оператора выбора. В рецепте 2.9 рассказывает¬ 
ся о группировке. В рецепте 2.10 обсуждаются обратные ссылки. В ре¬ 
цепте 2.12 объясняется, как организовать сопоставление с повторяющи¬ 
мися комбинациями символов. В рецепте 2.13 описывается, как обеспе¬ 
чить совпадение с как можно меньшим количеством символов. В рецеп¬ 
те 2.16 рассказывается об опережающих и ретроспективных проверках. 


9.10. Поиск слов в ХМЬ-подобных комментариях 

Задача 

Требуется отыскать все вхождения слова ТО00 (что сделать) внутри ком¬ 
ментариев (Х)НТМЬ или ХМЬ. Например, требуется отыскать подчерк¬ 
нутый текст в следующей строке: 

ТІііз "ТОРО" із поТ \л/іТИіп а согштюпі:, ЬиТ ТОе пехі: опе із. ^ 

<! -- ТОРО : Соте ир ѵѵіТО а сооіег соттепі: Тог ТМіз ехатріе. --> 

Решение 

Существует по меньшей мере два подхода к решению этой проблемы, 
и каждый из них имеет свои преимущества. Первый, который мы на¬ 
зываем «двухступенчатый подход», состоит в том, чтобы отыскать ком- 
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ментарии с помощью внешнего регулярного выражения, а затем внутри 
каждого совпадения выполнить поиск с помощью другого регулярного 
выражения или даже с применением инструментов простого поиска 
текста. Этот подход дает лучшие результаты, если программный код, 
выполняющий эту работу, пишете вы сами, потому что деление реше¬ 
ния задачи на два этапа упростит реализацию и сделает ее быстрой. Од¬ 
нако если поиск в файлах выполняется с помощью текстового редакто¬ 
ра или инструмента &гер, подход с делением задачи на два этапа рабо¬ 
тать не будет, если только используемый инструмент не предлагает спе¬ 
циальную возможность поиска внутри совпадений с другим регулярным 
выражением. 1 

Если необходимо выполнить поиск слов внутри комментариев с приме¬ 
нением единственного регулярного выражения, эту задачу можно ре¬ 
шить посредством проверки соседних символов. Этот подход демонст¬ 
рируется в разделе «Одноступенчатый подход». 

Двухступенчатый подход 

Когда это возможно, лучше разбить решение этой задачи на два этапа: 
найти комментарии и затем найти в них слово Т(Ю0. 

Так можно найти комментарии: 

<!*?--> 

Параметры: точке соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуНюп, КиЬу 

Стандартный диалект ^ѵаЗсгірІ не поддерживает режим «точке соот¬ 
ветствуют границы строк», но в нем вместо точки можно использовать 
символьный класс, соответствующий любому символу, как показано 
ниже: 

<!-[\з\3]*?-> 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуУюп, КиЬу 

Затем в каждом из комментариев, найденном с помощью только что 
представленных регулярных выражений, можно поискать текст, совпа¬ 
дающий с литералами <ТСЮ0>. При желании это регулярное выражение 
можно использовать в режиме нечувствительности к регистру симво¬ 
лов и с границами слова по обеим сторонам, чтобы обеспечить совпаде¬ 
ние только с полным словом ТСЮО, например: 

\Ы(Ю0\Ь 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуіЬоп, КиЬу 


1 РолѵегОКЕР, который описывается в разделе «Инструменты для работы с ре¬ 
гулярными выражениями» в главе 1, является одним из таких инструмен¬ 
тов, способных выполнять поиск внутри совпадений. 
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В рецепте 3.13 показано, как реализовать поиск в совпадениях с внеш¬ 
ним регулярным выражением. 

Одноступенчатый подход 

Опережающая проверка (описывается в рецепте 2.16) позволяет решить 
эту задачу с помощью единственного регулярного выражения, хотя 
и менее эффективно. В следующем регулярном выражении использует¬ 
ся позитивная опережающая проверка, чтобы убедиться, что за словом 
ТСЮО находится последовательность -->, закрывающая комментарий. 
Сама она не может сказать, находится ли слово внутри комментария 
или просто за ним следует комментарий, поэтому используется вло¬ 
женная негативная опережающая проверка, чтобы убедиться в отсут¬ 
ствии открывающей последовательности <!-- перед 

\ЬТ(Ю0\Ь(?=(? :(?!<! —).)*?—>) 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк 

Диалекты: .ЫЕТ, Заѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

Так как стандартный диалект ЗаѵаВсгірІ не поддерживает режим «точ¬ 
ке соответствуют границы строк», вместо точки можно использовать 
<[\з\3]>: 

\ЬТ(Ю0\Ь(?=(? :(?!<!—)[\з\3])*?—>) 

Параметры: нечувствительность к регистру символов 
Диалекты: .ЫЕТ, Заѵа, ЗаѵаЗсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

Обсуждение 

Двухступенчатый подход 

В рецепте 3.13 приводится программный код, реализующий поиск 
внутри совпадений с другим регулярным выражением. Он принимает 
внутреннее и внешнее регулярное выражение. Регулярное выражение, 
совпадающее с комментарием, используется как внешнее выражение, 
а <\Ы000\Ь> - как внутреннее. Главное, что необходимо отметить, - это 
минимальный квантификатор <*?>, который следует за символом точки 
или за символьным классом в регулярном выражении, совпадающем 
с комментариями. Как описывается в рецепте 2.13, этот квантификатор 
обеспечивает совпадение до первого вхождения последовательности --> 
(завершающей комментарий), а не до самого последнего. 

Одноступенчатый подход 

Это решение более сложное и медленное. Его преимуществом является 
объединение двух этапов из предыдущего подхода в одно регулярное вы¬ 
ражение. Благодаря этому данное решение может использоваться в тек¬ 
стовых редакторах, в средах разработки или с другими инструмента- 
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ми, не позволяющими производить поиск внутри совпадений с другим 
регулярным выражением. 

Разобьем регулярное выражение на составляющие в режиме свободно¬ 
го форматирования и поближе рассмотрим каждую его часть: 


\ь тоо \ь 
(?= 

(?: 

(?! <!- 

)*? 

--> 


# Совпадение с символами "ТООО” как с полным словом 

# За которыми следуют: 

и Группировка несохраняющая: 

- ) # Отсутствует предшествующая последовательность "<! 

# Совпадение с любым единственным символом 

# Ноль или более раз, минимально возможное число раз 

# Совпадение с символами 


Параметры: точке соответствуют границы строк, режим свободного 
форматирования 

Диалекты: .ЫЕТ, ^ѵа, ХКе&Ехр, РСКЕ, Регі, РуѣЬоп, КиЪу 


Эта прокомментированная версия регулярного выражения не будет ра¬ 
ботать в ^ѵаЕсгірі; без использования библиотеки ХКе^Ехр из-за отсут¬ 
ствия в этом диалекте обоих режимов, «свободного форматирования» 
и «точке соответствуют границы строк». 

Следует отметить, что регулярное выражение содержит негативную опе¬ 
режающую проверку, вложенную внутрь позитивной опережающей про¬ 
верки. Это позволяет потребовать, чтобы любое совпадение с ТСЮО пред¬ 
шествовало последовательности --> и между ними отсутствовало совпа¬ 
дение с <!--. 

Если вам понятно, как все это работает, замечательно - вы можете про¬ 
пустить оставшуюся часть данного раздела. Но если что-то кажется 
вам непонятным, давайте вернемся немного назад и шаг за шагом по¬ 
строим внешнюю позитивную опережающую проверку в этом регуляр¬ 
ном выражении. 

Допустим на минуту, что нам требуется просто отыскать вхождения сло¬ 
ва ТООО, за которыми где-то в строке находится последовательность сим¬ 
волов В результате мы получим выражение <\Ы000\Ь(?=. *?-->)> (в ре¬ 
жиме «точке соответствуют границы строк»), которое совпадет с под¬ 
черкнутым фрагментом в строке <! — ТОРО — >. Конструкция <.*?> в начале 
опережающей проверки совершенно необходима, потому что в против¬ 
ном случае регулярное выражение будет совпадать, только когда за сло¬ 
вом ТООО сразу же будет следовать -->, без каких-либо символов между 
ними. Квантификатор <*?> повторяет точку ноль или более раз, причем 
минимально возможное число раз, что просто замечательно, так как 
нам требуется совпадение только до первого вхождения -->. 

К настоящему моменту регулярное выражение может быть записано 
так: <\ЬТСЮ0(?=.*?-->)\Ь>, где второй метасимвол <\Ь> перенесен за опере¬ 
жающую проверку без какого-либо влияния на текст совпадения. Это 
обусловлено тем, что и граница слова, и опережающая проверка явля¬ 
ются проверками с нулевой длиной совпадения (раздел «Проверка сосед- 




9.10. Поиск слов в ХМЬподобных комментариях 


671 


них символов» в рецепте 2.16). Однако для большей удобочитаемости 
и производительности лучше поставить границу слова первой. В середи¬ 
не частичного совпадения механизм регулярных выражений быстрее 
проверит наличие границы слова, потерпит неудачу и двинется даль¬ 
ше, пытаясь начать сопоставление со следующего символа в строке, не 
тратя время на опережающую проверку. 

Итак, похоже, что регулярное выражение <\ЬТСЮ0\Ь(?=.*?-->)> работает 
замечательно, но что если применить его к испытуемой строке Т(Ю0 <! - 
- зерагаіе соттепі: -->? Выражение точно так же обнаружит совпадение 
со словом ТОРО , потому что за ним следуют символы -->, невзирая на то, 
что слово находится за пределами комментария. То есть необходимо за¬ 
менить символ точки внутри опережающей проверки, совпадающий 
с любым символом, на конструкцию, совпадающую с любым символом, 
не являющимся частью последовательности <! - -, которая открывает но¬ 
вый комментарий. Мы не можем использовать инвертированный сим¬ 
вольный класс, такой как <["<!-]>, потому что требуется разрешить вхо¬ 
ждение символов <, ! и -, если они не объединены в точную последова¬ 
тельность <!--. 

Это как раз та ситуация, когда на помощь может прийти негативная 
опережающая проверка. Конструкции <(?!<!--) > соответствует любой 
одиночный символ, не являющийся частью последовательности, откры¬ 
вающей комментарий. Поместив этот шаблон внутрь несохраняющей 
группировки, <(?:(?!<!--).)>, можно повторять всю последовательность 
с помощью минимального квантификатора <*?>, который ранее приме¬ 
нялся к точке. 

Объединив все вместе, получаем окончательное регулярное выраже¬ 
ние, которое было приведено как решение этой задачи: <\ЬТ(Ю0\Ь(?=(?:(? 
!<!--).)*?-->)>. В ^ѵа8сгірі, где отсутствует режим «точке соответству¬ 
ют границы строк», эквивалентное выражение имеет вид: <\ЬТ(Ю0\1э(?=( 
?:(?!<!--) [\з\8]) *?-->)>. 

Варианты 

Хотя регулярное выражение из раздела «Одноступенчатый подход» 
и проверяет, не следует ли за словом ТСЮО строка --> без <!-- между ни¬ 
ми, но оно не проверяет обратное условие: предшествует ли искомому 
слову строка <!-- без --> между ними. Есть несколько причин, почему 
мы пропустили это правило: 

• Обычно можно отказаться от выполнения двойной проверки, тем бо¬ 
лее, что одноступенчатое регулярное выражение предназначено для 
использования в текстовых редакторах и с другими инструментами, 
где можно визуально проверить результаты поиска. 

• Чем меньше количество проверок, тем меньше на их выполнение 
тратится времени (то есть достигается выигрыш за счет отказа от до¬ 
полнительных проверок). 
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• Самое главное: так как заранее неизвестно, как далеко перед словом 
ТО00 находится начало комментария, для заглядывания назад может 
потребоваться использовать бесконечную ретроспективную провер¬ 
ку, которая поддерживается только диалектом .ЫЕТ. 

При использовании диалекта .ЫЕТ и при наличии желания включить 
эту дополнительную проверку можно задействовать следующее регу¬ 
лярное выражение: 

(?<=<! --(?:(?!-->). )*? )\Ы(Ю0\Ь(? = (? :(?!<! —).)*?—>) 

Параметры: нечувствительность к регистру символов, точке соответ¬ 
ствуют границы строк 

Диалект: .ЫЕТ 

Это более строгое регулярное выражение, поддерживаемое только диа¬ 
лектом .ЫЕТ, содержит в самом начале дополнительную позитивную 
ретроспективную проверку, которая действует точно так же, как опере¬ 
жающая проверка в конце, но в обратном порядке. Так как ретроспек¬ 
тивная проверка заглядывает назад, отыскивая <!--, она содержит вло¬ 
женную опережающую проверку, которая позволяет ей совпадать с лю¬ 
быми символами, не являющимися частью последовательности 

Так как опережающая и ретроспективная проверки в начале выраже¬ 
ния являются проверками с нулевой длиной совпадения, окончатель¬ 
ное совпадение будет содержать только слово ТОРО. Совпадения с про¬ 
верками не включаются в текст окончательного совпадения. 

См. также 

Рецепт 9.9, где подробно обсуждается, как обеспечить совпадение с ком¬ 
ментариями ХМЬ. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.3 рассказывается о символьных 
классах. В рецепте 2.4 говорится, что точке соответствуют любые сим¬ 
волы. В рецепте 2.6 говорится о границах слов. В рецепте 2.9 рассказы¬ 
вается о группировке. В рецепте 2.12 объясняется, как организовать 
сопоставление с повторяющимися комбинациями символов. В рецеп¬ 
те 2.13 описывается, как обеспечить совпадение с как можно меньшим 
количеством символов. В рецепте 2.16 рассказывается об опережаю¬ 
щих и ретроспективных проверках. 

9.11. Изменение разделителя, 
используемого в файлах С5Ѵ 

Задача 

Требуется заменить все запятые, разделяющие поля в файле С8Ѵ, на 
символы табуляции. Запятые, присутствующие внутри полей, окру¬ 
женных кавычками, должны остаться без изменений. 
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Решение 

Следующее ниже регулярное выражение совпадает с отдельным полем 
С8Ѵ и с предшествующим ему символом-разделителем, если таковой 
имеется. Обычно предшествующий разделитель является запятой, но 
он может быть и пустой строкой (то есть ничем) при совпадении с пер¬ 
вым полем в первой записи или разрывом строки при совпадении с пер¬ 
вым полем любой последующей записи. Каждый раз когда обнаружива¬ 
ется совпадение, само поле, включая возможные окружающие его ка¬ 
вычки, сохраняется в обратной ссылке 2, а предшествующий ему разде¬ 
литель - в обратной ссылке 1. 

Регулярные выражения в этом рецепте предназначены для работы 
только с допустимыми файлами С8Ѵ с точки зрения правил, кото- 
> рые приводились в разделе «Значения, разделенные запятыми 
(Сотша-8ерагаіесі Ѵаіиез, С8Ѵ)» в начале этой главы. 

(, І\г?\п Г)([''”,\г\п]+|”(? : Г")*")? 

Параметры: нет 

Диалекты: .ЫЕТ, Лѵа, ^ѵа8сгір1, РСКЕ, Регі, РуЙюп, КиЬу 

Ниже приводится это же регулярное выражение в режиме свободного 
форматирования: 

( , | \г?\п | ~ ) # Сохраняющая группа 1 совпадает с разделителями полей 

# или с началом строки 

( # Сохраняющая группа 2 совпадает с единственным полем: 

Г”Лг\п]+ # не заключенным в кавычки 

| # Или: 

(?:[''"] |"" )* " # заключенным в кавычки (может содержать 

# экранированные кавычки) 

)? # Группа является необязательной, так как 

# поле может быть пустым 

Параметры: режим свободного форматирования 
Диалекты: .ЫЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуІЬоп, КиЬу 

Используя это регулярное выражение и программный код из рецеп¬ 
та 3.11, можно реализовать итерации по содержимому файла С8Ѵ и про¬ 
верять значение обратной ссылки 1 после каждого совпадения. Значение 
строки с замещающим текстом для каждого совпадения зависит от зна¬ 
чения этой обратной ссылки. Если это запятая, она замещается симво¬ 
лом табуляции. Если обратная ссылка содержит пустую строку или раз¬ 
рыв строки, это значение остается на месте (то есть не делается ничего 
или полученное значение вставляется обратно как часть строки заме¬ 
щающего текста). Так как поля С8Ѵ сохраняются в обратной ссылке 2 
как часть общего совпадения, их также необходимо вставлять в каждую 
строку замещающего текста. Единственное, что действительно необхо¬ 
димо замещать, - это запятые, сохраняемые в обратной ссылке 1. 
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Пример на .ІаѵаБсгірі 

Следующий ниже фрагмент представляет законченную веб-страницу, 
включающую два многострочных поля ввода и кнопку с надписью 
Керіасе (Заменить) между ними. После щелчка на кнопке из первого тек¬ 
стового поля (помеченного как Іприі (Вход)) извлекается введенная в не¬ 
го строка, а затем с помощью только что продемонстрированного регу¬ 
лярного выражения все запятые-разделители преобразуются в симво¬ 
лы табуляции и получившаяся строка помещается во второе текстовое 
поле (помеченное как Оиіриі (Выход)). Если в первое поле было введено 
допустимое содержимое в формате С8Ѵ, оно должно появиться во вто¬ 
ром текстовом поле с запятыми, замещенными символами табуляции. 
Чтобы выполнить испытания, сохраните этот фрагмент кода в файле 
с расширением «.Ьіті» и откройте его в веб-браузере: 

<Шт1> 

<Реас1> 

<ііі1е>Сйапде СЗѴ сіеіітіііегз ігот соттаз іо іаЬз</ііі1е> 

</Меас1> 

<ЬосІу> 

<р>Іприі: </р> 

<іехіагеа ісі="іприі" го\л/з="5" со1з=’'75"х/іехіагеа> 

<рхіприі іуре=”Ьиііоп” ѵа1ие=”Рер1асе” опс1іск=”соттазТоТаЬз()”></р> 
<р>0иіриі :</р> 

<іехіагеа іс!="ои1:ри1:” гсмз="5" со1з=”75”х/іехіагеа> 

<зсгірі> 

іипсііоп соттазТоТаЬзО { 

ѵаг іприі: = Роситет. деіЕІетепіВуІсК"іприі:"), 
оиіриі = сІоситепі.деіЕІетепіВуІсІС’оиіриі"), 
гедех = /(, |\г?\п Г )(Г".\г\п]+|| "”)*”)?/д > 
гезиіі = 
таіс^; 

\л/Рі1е (таісИ = гедех.ехесЦприі.ѵаіие)) { 

// Проверить значение обратной ссылки 1 
іі (таИсМ[1] == { 

// Добавить в результат символ табуляции (на место 
// совпавшей запятой) и содержимое обратной ссылки 2. 

// Если обратная ссылка 2 не определена (когда из-за 
// необязательности вторая сохраняющая группа не участвовала 
// в сопоставлении), использовать пустую строку, 
гезиіі: += "\і" + (таісП[2] || ""); 

} еізе { 

// Добавить все совпадение в результат 
гезиіі += таісП[0]; 

} 

// Предотвратить попадание некоторых браузеров в бесконечный цикл 
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іТ (таТсМ. іпсіех == гедех. ІазТІпсІех) { 
гедех. 1азТІпсіех++; 

} 

} 

оиТриТ. ѵаіие = гезиіі:; 

} 

</зсгірТ> 

</ЬосІу> 

</Шт1> 

Обсуждение 

Подход, описанный в этом рецепте, позволяет передавать каждое от¬ 
дельное поле С8Ѵ (включая внутренние разрывы строк, экранирован¬ 
ные кавычки и запятые) по одному за раз. Благодаря этому каждое по¬ 
следующее сопоставление будет начинаться с позиции непосредственно 
перед следующим разделителем полей. 

Первая сохраняющая группа в регулярном выражении, <(, |\г?\пГ)>, 
совпадает с запятой, разрывом строки или с позицией в начале испы¬ 
туемого текста. Так как механизм регулярных выражений испытывает 
варианты выбора слева направо, эти варианты перечислены в порядке 
уменьшения вероятности встречи с ними в файле С8Ѵ. Эта сохраняю¬ 
щая группа - единственная часть регулярного выражения, требующая 
обязательного совпадения. То есть возможна ситуация, когда общее 
совпадение с регулярным выражением будет пустой строкой, посколь¬ 
ку якорь <~> всегда совпадает один раз. Значение, совпавшее с этой пер¬ 
вой сохраняющей группой, должно быть проверено в программном ко¬ 
де за пределами регулярного выражения, который замещает запятые 
требуемым разделителем (например, символом табуляции). 

Мы еще не достигли конца регулярного выражения, но подход, описан¬ 
ный до сих пор, уже начинает казаться замысловатым. Может возник¬ 
нуть вопрос - почему бы не написать регулярное выражение, совпадаю¬ 
щее только с запятыми, которые необходимо заменить символами та¬ 
буляции? Если бы было сделано именно так, простая замена всех сов¬ 
падений помогла бы избавиться от программного кода за пределами 
регулярного выражения, проверяющего, совпадает ли сохраняющая 
группа 1 с запятой или какими-либо другим текстом. В конце концов, 
определить, находится ли запятая внутри или за пределами поля С8Ѵ 
в кавычках, можно с помощью опережающей и ретроспективной про¬ 
верки, разве не так? 

К сожалению, для реализации такого регулярного выражения потребо¬ 
валась бы ретроспективная проверка бесконечной длины, чтобы точно 
определить, какие запятые находятся за пределами полей в кавычках, 
что возможно только в диалекте ^ЕТ (описание различных ограниче¬ 
ний ретроспективной проверки можно найти в разделе «Различные 
уровни ретроспективной проверки» в рецепте 2.16). Однако даже разра¬ 
ботчикам для платформы .ЫЕТ следует избегать решений, основанных 
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на проверках соседних символов, потому что это может приводить к су¬ 
щественному усложнению и снижению производительности регуляр¬ 
ного выражения. 

Возвращаясь назад к описанию принципа действия регулярного выра¬ 
жения, заметим, что большая часть его заключена в следующую пару 
круглых скобок - сохраняющую группу 2. Эта вторая группа совпадает 
с единственным полем С8Ѵ, включая окружающие его кавычки. В отли¬ 
чие от предыдущей группы, эта группа является необязательной и мо¬ 
жет совпадать с пустыми полями. 

Обратите внимание, что группа 2 содержит два альтернативных под¬ 
выражения, разделенных метасимволом <|>. Первая альтернатива, 
<[~"»Ѵ\п]+>, — это инвертированный символьный класс, за которым сле¬ 
дует квантификатор «один или более раз» (<+>), а все вместе это соответ¬ 
ствует полю, не заключенному в кавычки. Чтобы соответствовать это¬ 
му подвыражению, поле не должно содержать кавычки, запятые или 
разрывы строк. 

Вторая альтернатива внутри группы 2, <"(?:[~"] Г■")*">, соответствует по¬ 
лю, заключенному в кавычки. Точнее, она соответствует символу ка¬ 
вычки, за которой следует ноль или более символов, не являющихся 
кавычкой, и повторяющихся (экранированных) кавычек, за которыми 
следует закрывающая кавычка. Квантификатор <*> в конце внутренней 
несохраняющей группы повторяет сопоставление двух внутренних ва¬ 
риантов выбора максимально возможное число раз, пока не будет най¬ 
дена кавычка, не дублированная и потому завершающая поле. 

Предположим, что выражение применяется к допустимому файлу С8Ѵ. 
Тогда первое совпадение, обнаруженное регулярным выражением, бу¬ 
дет найдено в самом начале испытуемого текста, а каждое последую¬ 
щее должно начинаться непосредственно за концом предыдущего сов¬ 
падения. 

См. также 

Рецепт 9.12, где описывается, как использовать регулярное выражение 
из этого рецепта для извлечения полей С8Ѵ, принадлежащих опреде¬ 
ленному столбцу. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 объясняется, как искать совпаде¬ 
ния с непечатаемыми символами. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.8 описывается применение оператора выбора. В рецепте 2.9 
рассказывается о группировке. В рецепте 2.12 объясняется, как орга¬ 
низовать сопоставление с повторяющимися комбинациями символов. 
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9.12. Извлечение полей С5Ѵ 
из определенного столбца 

Задача 

Необходимо извлечь все поля из третьего столбца файла С8Ѵ. 

Решение 

Для обхода всех полей в испытуемом тексте С8Ѵ можно повторно ис¬ 
пользовать регулярное выражение из рецепта 9.11. Добавив немного 
программного кода, можно подсчитывать поля в каждой строке, или 
записи , и извлекать поля только из определенной позиции. 

Следующее регулярное выражение (показано в обычном режиме и в ре¬ 
жиме свободного форматирования) совпадает с единственным полем 
С8Ѵ и предшествующим ему разделителем, сохраняя их в двух отдель¬ 
ных сохраняющих группах. Так как внутри полей в кавычках могут 
появляться разрывы строк, простой поиск от начала до конца в каждой 
строке С8Ѵ может не давать точных результатов. Сопоставляя и пере¬ 
шагивая через поля по одному, легко определить, какие разрывы строк 
находятся за пределами полей в кавычках, и благодаря этому начинать 
отсчет полей в новой записи. 

Регулярные выражения в этом рецепте предназначены для работы 
только с допустимыми файлами С8Ѵ с точки зрения правил, кото¬ 
рые приводились в описании формата «Значения, разделенные за¬ 
пятыми (Сотта-8ерагаіесі Ѵаіиез, С8Ѵ)» в начале этой главы. 

(, І\г?\п Г)([''",\г\п]+| | 

Параметры: нет 

Диалекты: .ЫЕТ, ^ѵа, ЛѵаЭсгірІ, РСКЕ, Регі, РуІЬоп, КиЪу 

( . I \г?\п | ~ ) # Сохраняющая группа 1 совпадает с разделителями полей 

# или с началом строки 

( # Сохраняющая группа 2 совпадает с единственным полем: 

Г",\г\п]+ # не заключенным в кавычки 

| # Или: 

(?:[""] | "")* ” # заключенным в кавычки (может содержать 

# экранированные кавычки) 

)? # Группа является необязательной, так как 

# поле может быть пустым 

Параметры: режим свободного форматирования, 

Диалекты: .ЫЕТ, Лѵа, ХКе&Ехр, РСКЕ, Регі, РуІЬоп, КиЪу 

Это в точности те же самые регулярные выражения, которые приводи¬ 
лись в рецепте 9.11, и они могут использоваться для решения широкого 
круга других задач обработки файлов С8Ѵ. Следующий фрагмент про- 


*аг * 
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граммного кода демонстрирует, как можно использовать версию регу¬ 
лярного выражения не в режиме свободного форматирования для из¬ 
влечения столбца С8Ѵ. 

Пример веб-страницы с кодом на .ІаѵаБсгірІ 

Следующий ниже фрагмент представляет законченную веб-страницу, 
включающую два многострочных поля ввода и кнопку с надписью 
Ехігасі Соіитп 3 (Извлечь столбец 3) между ними. После щелчка на кноп¬ 
ке из первого текстового поля Іприі (Вход) извлекается введенная в него 
строка, а затем с помощью регулярного выражения, продемонстриро¬ 
ванного выше, из каждой записи извлекается значение третьего поля, 
после чего весь столбец (где значения полей отделяются разрывами 
строк) помещается в поле Оиіриі (Выход). Чтобы выполнить испытания, 
сохраните этот фрагмент кода в файле с расширением «.Ьіті» и открой¬ 
те его в веб-браузере: 

<Шт1> 

<іеасі> 

<1;і1;1е>Ех1:гасі: ІіГіе іШгсІ соіитп Ггот а СЗѴ зігіпд<Лі1:1е> 

</0еас1> 


<Ьойу> 

<р>Іприі:</р> 

<іех1:агеа Іс1="іпри1:" го\л/з="5” со1з="75"х/1:ех1:агеа> 

<рхіприі Іуре="ЬіШ:оп" ѵа1ие="Ехі:гасі: Соіитп 3” 
опс1іск="сІізр1ауС5ѵСо1итп(2) , '></р> 

<р>0иіри1: :</р> 

<іех1:агеа іс!="ои1:ри1:" гомз="5" со1з="75"х/1:ех1:агеа> 


<зсгірІ> 

Рипсііоп сІізрІауСзѵСоІитп(іпсІех) { 

ѵаг іприі: = сіоситепі.деІЕІетепІВуІсІС’іприІ:"), 
оиіриі = сіоситепі. де!Е1етеп1ВуІс](”ои1:ри1:") І 
соіитпріеісіз = деІіСзѵСоІитп(іприі:.ѵаіие, іпсіех); 

іГ (соіитпріеісіз. Іепдііі > 0) { 

// Вывести каждую запись в отдельной строке, отделив ее от других 
// записей символом перевода строки (\п) 
оиіриі. ѵаіие = соіитпріеісіз. ;іоіп("\п”) ; 

} еізе { 

оиіриі.ѵаіие = ”[N 0 сіаіа ГоипсІ іо ехігасі:]"; 

} 

} 


// Вернуть массив полей из переданного текста СЗѴ, 
// индексация элементов в котором начинается с нуля 
Гипсііоп деіСзѵСо1итп(сзѵ, іпсіех) { 

ѵаг гедех = /(, |\г?\пГ)(Г”,\г\п]+Г(?Г” 


)*”)?/д 


і 




9.12. Извлечение полей С5Ѵ из определенного столбца 


679 


гезиіі = [], 
соіитпіпсіех = О, 
таісб; 

\л/Гіі1е (таісб = гедех. ехес(сзѵ) ) { 

// Проверить значение обратной ссылки 1. Если это запятая, 

// увеличить значение со1итп_іпсіех. Иначе сбросить его в ноль, 
і Г (таІсП[1 ] == { 

со1итпІпс1ех++; 

} еізе { 

соіитпіпсіех = 0; 

} 

іі (соіитпіпсіех == іпбех) { 

// Добавить поле (обр. ссылка 2) в конец массива результата 
гезиіі. ризІ'і(таТсІ'і[2]); 

} 

// Предотвратить попадание некоторых браузеров в бесконечный цикл 
II (таісб. іпсіех == гедех. ІазІІпсІех) { 
гедех. 1азІІпс1ех++; 

} 

} 

геіигп гезиіі; 

} 

</зсгірІ> 

</Ьобу> 

</ПІт1> 

Обсуждение 

Так как здесь используется регулярное выражение из рецепта 9.11, мы не 
будем снова подробно описывать, как оно действует. Однако этот рецепт 
включает новый пример программного кода на ^ѵаЗсгірІ, где данное ре¬ 
гулярное выражение используется для извлечения полей с определен¬ 
ным порядковым номером из каждой записи С8Ѵ в испытуемом тексте. 

Функция деЮзѵСоІитпО в представленном коде выполняет итерации че¬ 
рез совпадения в испытуемом тексте. После каждого совпадения прове¬ 
ряется содержимое обратной ссылки 1. Если она содержит запятую, сле¬ 
довательно, было найдено совпадение не с первым полем в записи, по¬ 
этому производится наращивание переменной соіитпіпсіех, где хранится 
порядковый номер текущего столбца. Если обратная ссылка 1 содержит 
нечто отличное от запятой (то есть пустую строку или разрыв строки), 
следовательно, было найдено совпадение с первым полем в новой стро¬ 
ке, поэтому значение переменной соіитпіпсіех сбрасывается в ноль. 

Затем программный код проверяет, не достиг ли счетчик соіитпіпсіех 
индекса искомого столбца, который требуется извлечь. Каждый раз ко¬ 
гда проверка дает положительный результат, в массив с результатами 
добавляется значение обратной ссылки 2 (все, что следует за разделите¬ 
лем полей). После того как будет выполнен обход всего испытуемого 
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текста, функция деГСзѵСо1итп() вернет массив, содержащий значения 
всего заданного столбца (третьего в этом примере). Список совпадений 
записывается во второе текстовое поле на странице, при этом каждое 
значение отделяется символом перевода строки (\п). 

Этот пример можно было бы немного улучшить, дав пользователю воз¬ 
можность указывать номер столбца, который следует извлечь, с помо¬ 
щью дополнительного поля ввода или посредством запроса. Обсуждае¬ 
мая функция деіСзѵСо1итп() написана в предположении такой возмож¬ 
ности и позволяет указывать индекс желаемого столбца, отсчет кото¬ 
рых начинается с нуля, в виде второго аргумента (іпсіех). 


Варианты 

Хотя использование программного кода для обхода текста по одному 
полю С8Ѵ за раз обеспечивает дополнительную гибкость, при использо¬ 
вании текстового редактора может оказаться вполне достаточным огра¬ 
ничиться операцией поиска с заменой. В этой ситуации можно добить¬ 
ся похожих результатов, производя замещение совпадения с каждой 
полной записью значением поля с требуемым индексом (с помощью об¬ 
ратной ссылки). Следующие регулярные выражения иллюстрируют 
этот прием для различных индексов столбцов, замещая каждую запись 
полем из заданного столбца. 

Все эти регулярные выражения не будут совпадать с записями, число 
полей в которых меньше номера искомого столбца, поэтому такие запи¬ 
си останутся в неизменном виде. 


Соответствует записи С5Ѵ и сохраняет поле 
из столбца с номером 1 в обратной ссылке 1 


(Г" ,\Г\П]+| "(?: Г•] | *•")*")?(?:. (?: [ Л ”,\г\п]+| "(?:Г"]| '”>”)?)* 


Параметры: символам А и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі, РСКЕ, Регі, РуѣЬоп, КиЬу 


Соответствует записи С5Ѵ и сохраняет поле 
из столбца с номером 2 в обратной ссылке 1 


"(?: [""Дг\п]+| "(?: [ #ч ’’] I 

Лг\п]+|| 


\г\п]+Г(?:Г ,, ]Г")*")?^ 


Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірІ, РСКЕ, Регі, РуіЬоп, КиЬу 


Соответствует записи С5Ѵ и сохраняет поле из столбца 
с номером 3 или выше в обратной ссылке 1 


~(?: Г",\г\п]+|"(? :[-’•] | "")*”)?(? :,(?:Г"Лг\п]+| "(?:Г"]| ””)*”)?){ 1}, 
([**" ,\г\п]+1, (?:[ л "Лг\п]+Г (?:[''"] Г’" )*”)?)* 
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Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, 4аѵа, 4аѵа8сгірІ, РСКЕ, Регі, Руііюп, КиЬу 

Увеличив число в квантификаторе <{1}>, можно заставить регулярное 
выражение обрабатывать поля с порядковыми номерами выше 3. На¬ 
пример, если изменить значение квантификатора на <{2}>, будут сохра¬ 
няться поля из столбца с номером 4, если изменить на <{3}> - будут со¬ 
храняться поля из столбца с номером 5 и т. д. Если предполагается ра¬ 
ботать с полями из столбца 3, квантификатор <{1}> можно просто уда¬ 
лить, так как в этом случае он не оказывает никакого воздействия. 

Замещающий текст 

Со всеми этими регулярными выражениями используется один и тот 
же замещающий текст (обратная ссылка 1). В результате замещения 
каждого совпадения содержимым обратной ссылки 1 должны остаться 
только искомые поля. 

$1 

Диалекты замещающего текста: .ЫЕТ, 4аѵа, ЗаѵаЗсгірі;, Регі, РНР 

\1 

Диалекты замещающего текста: РуНюп, КиЬу 

См. также 

Рецепт 9.11, где демонстрируется, как с применением регулярного вы¬ 
ражения в этом рецепте заменить запятые, играющие роль разделите¬ 
лей полей в файле С8Ѵ, символами табуляции. 

Приемы, использовавшиеся в регулярных выражениях и в замещаю¬ 
щем тексте в этом рецепте, обсуждаются в главе 2. В рецепте 2.2 объяс¬ 
няется, как искать совпадения с непечатаемыми символами. В рецеп¬ 
те 2.3 рассказывается о символьных классах. В рецепте 2.5 обсуждают¬ 
ся якорные метасимволы. В рецепте 2.8 описывается применение опера¬ 
тора выбора. В рецепте 2.9 рассказывается о группировке. В рецепте 2.12 
объясняется, как организовать сопоставление с повторяющимися ком¬ 
бинациями символов. В рецепте 2.21 демонстрируется, как вставлять 
текст, совпавший с сохраняющей группой, в текст замены. 

9.13. Сопоставление 
с заголовком раздела в файле ІІЧІ 

Задача 


Необходимо отыскать совпадения со всеми заголовками разделов в фай¬ 
ле ШІ. 
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Решение 

Заголовки разделов в файлах ШІ находятся в начале строки текста 
и окружены квадратными скобками (например, [Зесііопі]). Эти прави¬ 
ла легко оформить в виде регулярного выражения: 

~\[[Л]\г\п]+] 

Параметры: символам " и $ соответствуют границы строк 
Диалекты: .ЫЕТ, Лѵа, ЛѵаЗсгірІ;, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

В этом регулярном выражении немного частей, поэтому его легко будет 
разобрать: 

• Благодаря включенному режиму «символам и $ соответствуют 
границы строк» начальный символ Г> совпадает с началом каждой 
строки в тексте. 

• <\[> совпадает с литералом [. Чтобы символ [ не интерпретировался 
как начало символьного класса, он экранируется обратным слэшем. 

• <[~\] Ѵ\п]> - это инвертированный символьный класс, которому соот¬ 
ветствует любой символ, кроме ], возврата каретки (\г) и перевода 
строки (\п). Вслед за классом сразу же следует квантификатор <+>, по¬ 
зволяющий классу совпадать с одним или более символами, пока не 
будет обнаружено совпадение с... 

• Завершающему символу <]> соответствует литерал ] в конце заголов¬ 
ка раздела. Этот символ не требуется экранировать, так как он не 
находится внутри символьного класса. 

Варианты 

Если требуется просто отыскать определенный заголовок раздела, ре¬ 
шение выглядит еще проще. Следующее регулярное выражение совпа¬ 
дает с заголовком раздела Зесіііопі: 

Л[5ес*іоп1 ] 

Параметры: символам Л и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ^ѵаЗсгірі;, РСКЕ, Регі, РуІЬоп, КиЪу 

Единственное отличие от сопоставления с простым текстом «[8есі;іоп1]» 
состоит в том, что совпадение должно находиться в начале строки тек¬ 
ста. Это предотвращает возможность совпадения с закомментирован¬ 
ным заголовком раздела (которому предшествует символ точки с запя¬ 
той) или с фрагментом, который выглядит как заголовок, но фактиче¬ 
ски является частью значения параметра (например, ІІет1=[Ѵа1ие1]). 




9.14. Сопоставление с разделом в файле ІІЧІ 
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См. также 

Рецепт 9.14, где описывается, как обеспечивать совпадение с разделами 
в файлах ШІ. Рецепт 9.15, где описывается, как добиться того же само¬ 
го в отношении пар имя-значение. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.2 объясняется, как искать 
совпадения с непечатаемыми символами. В рецепте 2.3 рассказывается 
о символьных классах. В рецепте 2.5 обсуждаются якорные метасимво¬ 
лы. В рецепте 2.12 объясняется, как организовать сопоставление с по¬ 
вторяющимися комбинациями символов. 


9.14. Сопоставление с разделом в файле ІІѴІІ 

Задача 

Требуется обеспечить совпадение со всем разделом в файле ШІ (то есть 
с заголовком раздела и со всеми парами имя-значение в этом разде¬ 
ле), чтобы разбить файл ШІ на блоки или для обработки блоков по от¬ 
дельности. 


Решение 


В рецепте 9.13 показано, как обеспечить совпадение с заголовком раздела 
в файле ШІ. Чтобы обеспечить совпадение со всем разделом, мы начнем 
сопоставление точно так же, как в предыдущем рецепте, но будем про¬ 
должать сопоставление, пока не будет достигнут конец текста или сим¬ 
вол [ в начале строки (так как это указывает на начало нового раздела): 

~\[[”\]\г\п]+](?:\г?\п(?:[~[\г\п].*)?)* 

Параметры: символам и $ соответствуют границы строк (режим 
«точке соответствуют границы строк» должен быть выключен) 
Диалекты: ШЕТ, ^ѵа, ^ѵаБсгірі, РСКЕ, Регі, Руііюп, КиЪу 


Или в режиме свободного форматирования: 


~ \[ Г\]\г\п]+ 
(?: 

\г?\п 

(?: 

Г[\г\п] 

★ 

)? 

)* 


# Совпадение с заголовком раздела 

# Далее следует остальная часть раздела: 

# Последовательность символов разрыва строки 

# После каждого начала строки совпадает: 

# С любым символом, кроме "[” и разрыва строки, 

# И с остатком строки 

# Необязательная, чтобы совпадать с пустыми строками 

# Продолжать, пока не будет найден конец раздела 


Параметры: символам л и $ соответствуют границы строк, режим сво¬ 
бодного форматирования (режим «точке соответствуют границы 
строк» должен быть выключен) 

Диалекты: ШЕТ, Лѵа, ХКе&Ехр, РСКЕ, Регі, РуІИоп, КиЪу 
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Обсуждение 

Это регулярное выражение начинается сопоставлением заголовка раз¬ 
дела в файле ШІ с шаблоном <Л[[~\]\г\п]+]> и продолжает построчное 
сопоставление, пока не будет встречена строка, начинающаяся с симво¬ 
ла [. Рассмотрим следующий текст: 

[Зесіііопі ] 

Іііеті =Ѵа1ие1 
Ііет2=[Ѵа1ие2] 

; [ЗесііопА] 

; Заголовок раздела ЗесііопА был закомментирован 

І1:етА=Ѵа1иеА ; ІііетА не закомментирован и является частью раздела Зесіііопі 

[5есііоп2] 

ІіетЗ^ѴаІиеЗ 
Ііет4 = Ѵа1ие4 

В данном тексте это регулярное выражение обнаружит два совпадения. 
Первое будет простираться от начала текста до заголовка [ЗесІіоп2], 
включая пустую строку перед ним. Второе совпадение будет прости¬ 
раться от начала заголовка 8ес1іоп2 до конца текста. 

См. также 

Рецепт 9.13, где описывается, как обеспечить совпадение с заголовком 
раздела в файле ШІ. Рецепт 9.15, где описывается, как добиться совпа¬ 
дения с парами имя-значение. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.1 описывается, какие специальные 
символы следует экранировать. В рецепте 2.2 объясняется, как искать 
совпадения с непечатаемыми символами. В рецепте 2.3 рассказывается 
о символьных классах. В рецепте 2.5 обсуждаются якорные метасимво¬ 
лы. В рецепте 2.9 рассказывается о группировке. В рецепте 2.12 объяс¬ 
няется, как организовать сопоставление с повторяющимися комбина¬ 
циями символов. 

9.15. Сопоставление с парами 
имя-значение в файле ІІЧІ 

Задача 

Требуется обеспечить совпадение с парами имя-значение в файле ШІ 
(например, Ііет1=Ѵа1ие1 ), разбивая каждое совпадение на две части с по¬ 
мощью сохраняющих групп. Обратная ссылка 1 должна хранить имя 
параметра (Ііеті), а обратная ссылка 2 - значение (Ѵаіиеі). 



9.15. Сопоставление с парами имя-значение в файле ІЫІ 


685 


Решение 

Ниже приводится регулярное выражение, выполняющее эту работу: 

~(Г=;\г\п]+) = (Г;\г\п]*) 

Параметры: символам " и $ соответствуют границы строк 
Диалекты: .ЫЕТ, ^ѵа, ^ѵа8сгірі, РСКЕ, Регі, РуИюп, КиЬу 

То же самое регулярное выражение в режиме свободного форматирова¬ 
ния: 

# Начало строки текста 

( [~=:\г\п]+ ) # Сохранить имя в обратной ссылке 1 
= # Разделитель между именем и значением 

( [~;\г\п]* ) # Сохранить значение в обратной ссылке 2 

Параметры: символам " и $ соответствуют границы строк, режим сво¬ 
бодного форматирования 

Диалекты: ШЕТ, ^ѵа, ХКе^Ехр, РСКЕ, Регі, РуЙюп, КиЬу 

Обсуждение 

Как и в других рецептах этой главы, имеющих отношение к файлам 
ШІ, здесь мы работает с весьма простыми составляющими. Регулярное 
выражение начинается с символа Г>, который обеспечивает совпадение 
с началом строки в тексте (при этом должен быть включен режим «сим¬ 
волам Л и $ соответствуют границы строк»). Очень важно, чтобы совпа¬ 
дение начиналось с начала строки, потому что в противном случае мож¬ 
но было бы найти совпадение с частью закомментированной строки. 

Затем регулярное выражение использует сохраняющую группу, содер¬ 
жащую инвертированный символьный класс <[''=;\г\п]>, за которым 
следует квантификатор «один или более раз» <+>, что обеспечивает сов¬ 
падение с именем параметра и сохранение его в виде обратной ссылки 1. 
Инвертированному классу соответствует любой символ, кроме следую¬ 
щих четырех: знак равенства, точка с запятой, возврат каретки (<\г>) 
и перевод строки (<\п>). Символы возврата каретки и перевода строки ис¬ 
пользуются как признак конца параметра в файле ШІ, точка с запятой 
отмечает начало комментария, а знак равенства отделяет имя парамет¬ 
ра от значения. 

После сопоставления с именем параметра далее в регулярном выраже¬ 
нии следуют сопоставление с литералом знака равенства (разделитель 
имени и значения) и затем со значением параметра. Совпадение со зна¬ 
чением обеспечивает вторая сохраняющая группа, в которой использу¬ 
ется шаблон, похожий на шаблон имени параметра, но имеющий на два 
ограничения меньше. Во-первых, этот второй шаблон допускает совпа¬ 
дение со знаком равенства как частью значения (то есть инвертирован¬ 
ный символьный класс на один символ короче). Во-вторых, здесь ис¬ 
пользуется квантификатор <*>, чтобы устранить необходимость соот- 
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ветствовать хотя бы одному символу (так как, в отличие от имен, значе¬ 
ния могут быть пустыми). 

Вот и все. 

См. также 

Рецепт 9.13, где описывается, как обеспечить совпадение с заголовком 
раздела в файле ШІ. Рецепт 9.14, где описывается, как обеспечивать 
совпадение с разделами в файлах ШІ. 

Приемы, использовавшиеся в регулярных выражениях в этом рецепте, 
обсуждаются в главе 2. В рецепте 2.2 объясняется, как искать совпаде¬ 
ния с непечатаемыми символами. В рецепте 2.3 рассказывается о сим¬ 
вольных классах. В рецепте 2.5 обсуждаются якорные метасимволы. 
В рецепте 2.9 рассказывается о группировке. В рецепте 2.12 объясняет¬ 
ся, как организовать сопоставление с повторяющимися комбинациями 
символов. 




Алфавитным указатель 


Символы 

7-битный набор символов, 55 
& (амперсанд), экранирование, 452 
| (вертикальная черта) 

как оператор выбора, 90, 329, 405 
экранирование, 451 
К оператор (Регі), 185 
- (дефис) 

диапазоны внутри символьных 
классов, 57 
как метасимвол, 50 
удаление из номера кредитной карты, 
387, 390 

экранирование, 451 
, (запятая) 

как разделитель групп разрядов, 483 
экранирование, 452 
* (звездочка) 

как квантификатор, 305, 502, 503 
как максимальный квантификатор, 
108 

как метасимвол, 50 
экранирование, 451 
? (знак вопроса) 

как минимальный квантификатор, 
108,503 

как квантификатор ноль или один раз, 
105 

как метасимвол, 50 
экранирование, 451 
(?:), несохраняющая группа, 305 
(?т), модификатор режима, 70 
$ (знак доллара) 

как метасимвол, 50 
как якорный метасимвол, 66, 67, 69, 
309, 157 

экранирование, 451 

в замещающем тексте, 134 
$', переменная, 143, 203, 266 
$_, переменная, 143 
$’, переменная, 143, 266 
$&, переменная, 137, 198, 203 


$~, переменная (КиЪу), 198 
сохраняющие группы, 210 
$~[0], переменная, 198 
+ (знак плюс) 

для обозначения захватывающего 
квантификатора, 111 
как квантификатор, 305 
и возвраты, 507 
как метасимвол, 50 
экранирование, 451 
[] (квадратные скобки) 

для определения символьных классов, 
57 

как метасимволы, 50 
символьные классы, 305, 377, 503 
экранирование, 450 
@ (коммерческое аі) 

представление в Регі, 157 
совпадение, 304 
@+, переменная, 203 
@-, переменная, 203 
() (круглые скобки) 

атомарная группировка, 114, 348 
как метасимволы, 50 
повторный поиск соответствия с ранее 
совпавшим текстом, 96 
сохраняющая группировка, 92 
экранирование, 450 
Л (крышка) 

как метасимвол, 50 
как якорный метасимвол, 66, 67, 68, 
305, 309 

отрицание внутри символьных классов, 
57 

экранирование, 451 
\ (обратный слэш) 

в исходных текстах, 152 
внутри символьных классов, 57 
как метасимвол, 50 
как символ экранирования, 50 
экранирование, 448, 451 

в замещающем тексте, 134 
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=~, оператор 
Регі, 185 
КиЬу, 186, 204 
# (решетка) 

оформление комментариев, 131 
экранирование, 452 
. (точка), метасимвол, 510 
злоупотребление, 64 
как метасимвол, 50 
соответствует любому символу, 62 
экранирование, 451 
{} (фигурные скобки) 

для организации повторений, 104 
как метасимволы, 50 
экранирование, 450 
%+, хеш, 213, 250 

А 

\А, якорный метасимвол, 66, 67, 68, 306 
АсІіопВсгірІ;, язык программирования, 148 
аррепсіКер1асетепі(), метод, 255 
аррепсіТаі1(), метод, 255 

В 

\Ъ, метасимвол, граница слова, 60, 71, 312, 
329, 401, 497, 498 
\В, не граница слова, 72 
<Ъ>, тег, замещение тегом <зігоп&>, 631 
Ъе&іп(), метод, КиЪу (класс МаІсЬБаІа), 204 

С 

С, язык программирования, 148 
\сА до \с2, значения, 54 
С++, язык программирования, 148 
С#, язык программирования, 145 

импортирование библиотеки регуляр¬ 
ных выражений, 161 
литералы регулярных выражений, 154 
создание объектов регулярных выраже¬ 
ний, 165 

СасЬеЗіге, свойство (.КЕТ), 165 
САКСЖ_Е(}, константа Оіаѵа), 176 
СА8Е_Ш8ЕК8ІТІѴЕ, константа ^аѵа), 173 
сеіізрасіп^, атрибут, добавление в теги 
<1аЫе>, 658 

СІЬ (Соттоп Іпіегтебіаіе Ьап&иа&е - об¬ 
щий промежуточный язык), 170 
Сотта-берагаіесі Ѵаіиез (значения, 
разделенные запятыми, С8Ѵ), 609 
извлечение полей из определенного 
столбца, 677 

изменение разделителя, 672 
СОММЕЫТ8, константа Уаѵа), 172 
сотріІеО, метод 


^ѵа (класс РаІЪегп), 155, 166, 172 
РуІЪоп (модуль ге), 168 

параметры регулярных выражений, 
174 

КиЪу (класс Ке&ехр), 169 
Соипі, свойство (МаІсЬ.Огоирз), 208 
С8Ѵ (Сотта-8ерагаіес1 Ѵаіиез - значения, 
разделенные запятыми), 609 
Сиггепсу, блок Юникода, 83 

Р 

\сі, метасимвол, 58, 456 

\Б, метасимвол, 58 

БеІрЬі, язык программирования, 149 

БеІрЫ Ргізт, язык программирования, 

150 

БОСТУРЕ, объявление (НТМЬ), 606 
БОТАЬЬ, константа ^аѵа), 172 

Е 

\Е, лексема, для подавления метасимво¬ 
лов, 51 

ЕСМА-262, стандарт, 146, 148 
ЕСМАЗсгірІ, значение (Ке^ехОрііопз), 176 
ЕСМА8сгір1, язык программирования, 146 
епб(), метод 

^ѵа (класс МаісЬег), 202, 209 
РуіЬоп (класс МаІсЬОЬзесІ), 203 
КиЬу (класс МаІсЬБаіа), 204 
ЕРР (ЕхІепзіЫе Ргоѵізіопіп^ Ргоіосоі - 
расширяемый протокол представления 
информации), 316 
еге&, семейство функций (РНР), 147 

литералы регулярных выражений, 156 
ехес(), метод 

ХКе&Ехр, 225 
^ѵаЗсгірі, 202, 209 

обход всех совпадений в цикле, 224 
ЕхрІісііСаріиге, значение (Ке^ехОрІіопз), 
176 

ЕХТЕЫБЕБ, константа (Ке^ехр), 175 
ЕхІепзіЫе Нурегіехі Магкир Ьап^иа&е 
(расширяемый язык разметки гипертек¬ 
ста, ХНТМЬ), 607 

добавление атрибутов в теги <1аЫе>, 
658 

поиск тегов, 612 

удаление всех тегов, за исключением 
выбранных, 635 

ЕхІепзіЫе Магкир Ьап&иа^е (расширяе¬ 
мый язык разметки, ХМЬ), 608 
декодирование мнемоник, 650 
добавление атрибутов в теги <1аЫе>, 
658 
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поиск определенных атрибутов, 653 
поиск слов в комментариях, 667 
поиск тегов, 612, 615 
сопоставление с именами, 639 
удаление всех тегов, за исключением 
выбранных, 635 
удаление комментариев, 662 

Р 

йп6(), метод, Заѵа (класс МаісЬег), 184, 

197, 202, 216 

обход всех совпадений в цикле, 223 
1іпсіа11(), метод, РуіЬоп (модуль ге), 218 
НпсШегО, метод, РуіЬоп (модуль ге), 226 
ІогЕасй, метод (ХКе&Ехр), 225 

С 

Оеі-Цпщие, команда (РолѵегЗЬеІІ), 433 
&гер, функция, поддержка в проекте К, 151 
Сггооѵу, язык программирования, 150 
Огоир, класс (.КЕТ), 208 
&гоир(), метод 

РуіЬоп (модуль ге), 210 
Заѵа (класс МаЪсЬег), 209 
ОгоирСоІІесІіоп, класс (.КЕТ), 208 
&гоирсІісі(), метод, РуІЬоп (класс 
МаісЬОЪіесІ), 210 

Огоирз, свойство .КЕТ (функция МаЪсЬ()), 
208 

ггоирз(), метод, РуіЬоп (класс 
МаІсЬОЪзесІ;), 210 

&зиЪ(), метод, КиЪу (класс 81гіп&), 244, 257 
обратные ссылки, 248 

Н 

Нурегіехі Магкир Ьап^иа^е (язык размет¬ 
ки гипертекста, НТМЬ), 604 
добавление атрибутов в теги <іаЫе>, 
658 

добавление тегов <р> в простой текст, 
646 

замещение тега <Ъ> тегом <зІгоп&>, 

631 

поиск тегов, 612 

удаление всех тегов, за исключением 
выбранных, 635 

I 

ЮКОКЕСА8Е, константа (Ке^ехр), 175 
І^погеСазе, параметр (Ке^ехОрІіопз), 172 
І&погеРаиеггіѴА/ЪіІезрасе, параметр 
(Ке^ехОрІіопз), 172 
Іпбех, свойство (.КЕТ), 201 
іпбех, свойство (ЗаѵаЗсгірІ), 202 


ІпбехОиЮІВоипбзЕхсерІіоп, исключение, 
242 

ШІ, файлы 

сопоставление с заголовком раздела, 

681 

сопоставление с парами имя-значение, 
684 

сопоставление с разделом, 683 
ІРѵ4, адреса, сопоставление, 565 
ІРѵб, адреса, сопоставление, 569 
ІзМа1сЬ(), метод (.КЕТ), 184 
180 8601, форматы, 330 

} 

Заѵа, язык программирования, 145 

импортирование библиотеки регуляр¬ 
ных выражений, 161 
литералы регулярных выражений, 155 
определение замещающего текста, 24 
параметры регулярных выражений, 

172, 176 

поддержка регулярных выражений, 20 
создание объектов регулярных выраже¬ 
ний, 165 

ЗаѵаЗсгірІ, язык программирования, 146 
библиотека ХКе^Ехр, 146 
библиотека регулярных выражений, 

161 

литералы регулярных выражений, 156 
определение замещающего текста, 24 
параметры регулярных выражений, 

173, 176 

поддержка регулярных выражений, 20, 
146 

создание объектов регулярных выраже¬ 
ний, 167 

Іаѵа.иШ.ге^ех, пакет, для использования 
регулярных выражений, 161 

К 

\К, метасимвол, 513 
кзог1(), функция (РНР), 243 

I. 

ІазІІпсіех, свойство, ЗаѵаЗсгірІ (класс 
Ке&Ехр), 202, 224, 418 
Ьеп&ЪЬ, свойство (.КЕТ), 201 
Іеп^ІЬ, свойство (ЗаѵаЗсгірІ), 202 
1еп^1Ь(), метод, КиЬу (класс МаісЬБаіа), 
204 

м 

ш//, оператор (Регі), 185,198 
сохраняющие группы, 210 
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МаІсЪ, класс (.КЕТ) 

КехіМаісЬ(), метод, 222 
свойства Іпсіех и Ьеп&ІЪ, 201 
таІсЪ(), метод 

КиЪу (класс Ке&ехр), 204 
ЗаѵаЗсгірі, 216 
Ма1сЬ(), метод (.КЕТ), 201 
Огоирз, свойство, 208 
Ѵаіие, свойство, 196 
обход всех совпадений в цикле, 222 
МаІсЪБаІа, класс (КиЪу), 198 
Ье^іп(), метод, 204 
епсі(), метод, 204 
1еп&1Ь(), метод, 204 
оНзеІ(), метод, 204 
зІ 2 е(), метод, 204 
МаісЪег, класс (Заѵа), 167 
еп6(), метод, 202, 209 
Йп6(), метод, 184, 197, 202, 216 

обход всех совпадений в цикле, 223 
&гоир(), метод, 209 
гезе1(), метод, 167, 197 
5ІагЪ(), метод, 202, 209 
МаісЬез(), метод (.КЕТ), 215 
МаІсЬЕѵаІиаіог, класс (.КЕТ), 253 
МаісЬОУесІ, класс (РуНюп) 
епсІ(), метод, 203 
зіагі(), метод, 203 

тЪ_еге&, семейство функций (РНР), 147 
литералы регулярных выражений, 156 
МісгозоЙ ѴВ8сгірІ, библиотека, 152 
МІІЬТІЬІКЕ, константа (Заѵа), 172 
МШЛТЫКЕ, константа (Ке^ехр), 175 
МиШНпе, параметр (Ке&ехОрІіопз), 172 

N 

\п (символ перевода строки), 
представление в 
С#, 155 
Заѵа, 155 
РуІЪоп, 153, 159 
КЕАК-поиск, 421 
.КЕТ, платформа 

параметры регулярных выражений, 

172, 175 

создание объектов регулярных выраже¬ 
ний, 164 

педѵ(), метод (КиЪу), 169, 175 
Кге&ех, веб-приложение для тестирования 
регулярных выражений, 35 

О 

оНзе1(), метод, КиЪу (класс МаЪсЪБаІа), 204 
Опі&игата, библиотека, 148 


Р 

\р{}, определение категории Юникода, 76 
\Р{}, для проверки категории Юникода, 80 
Раііегп, класс (Заѵа), 165 

сошрі1е(), метод, 155, 166, 172 
зрШ(), метод, 271 
константы параметров, 172, 176 
РаиегпЗупІахЕхсерІіоп, исключение, 166 
РСКЕ (РегІ-СотраііЫе Ке&иіаг Ехргеззіопз, 
Регі-совместимые регулярные выраже¬ 
ния), библиотека, 21, 147 
определение замещающего текста, 24 
Регі, язык программирования, 147 

библиотека регулярных выражений, 

162 

литералы регулярных выражений, 157 
определение замещающего текста, 24 
параметры регулярных выражений, 

174, 177 

поддержка регулярных выражений, 18, 
147 

создание объектов регулярных выраже¬ 
ний, 168 

РНР, язык программирования, 146 

импортирование библиотеки регуляр¬ 
ных выражений, 162 
литералы регулярных выражений, 156 
определение замещающего текста, 24 
параметры регулярных выражений, 

174, 177 

создание объектов регулярных выраже¬ 
ний, 167 

функции регулярных выражений, 146 
Р08ІХ-совместимые механизмы регуляр¬ 
ных выражений, 472 
РолѵегОКЕР, приложение, 44 
Родѵег8Ъе11, язык сценариев, 150 
рге&, семейство функций (РНР), 147 
рге&_таісЪ_а11(), функция, 217, 226 
рге^_таісЬ(), функция, 185, 198 

обход всех совпадений в цикле, 225 
рге&_гер1асе_са11Ъаск(), функция, 256 
рге&_гер1асе(), функция, 147, 242 

именованные сохраняющие группы, 
250 

обратные ссылки, 247 
рге&_зрШ;(), функция, 273 

и сохраняющая группировка, 278 
доступность, 162 

литералы регулярных выражений, 156 
параметры регулярных выражений, 174 
создание объектов регулярных выраже¬ 
ний, 168 
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РКЕООЕЕ8ЕТСАРТІІКЕ, константа, 

203, 209, 217 

РКЕСг_РАТТЕКК_ОІШЕК, константа, 217 

РКЕО_8ЕТ_ОКБЕК, константа, 217 

РКЕа_8РЫТ_БЕЫМ_САРТІІКЕ, констан¬ 
та, 278 

РКЕО_8РЫТ_КО_ЕМРТУ, константа, 273, 
278 

РуІЬоп, язык программирования, 147 
импортирование библиотеки регуляр¬ 
ных выражений, 162 
литералы регулярных выражений, 158 
определение замещающего текста, 25 
параметры регулярных выражений, 

174, 178 

поддержка регулярных выражений, 22 
создание объектов регулярных выраже¬ 
ний, 168 

функции регулярных выражений, 147 

о 

\(}, лексема, для подавления метасимво¬ 
лов, 51 

цг//, оператор (Регі), 168 

К 

К, проект, 151 

ге, модуль (РуІЬоп), 25, 147, 158 
сошрі1е(), функция, 168 
1іпсіа11(), метод, 218 
йпсіі1ег(), метод, 226 
&гоир(), метод, 210 
зеагсЬ(), функция, 185,198 
зрШ(), метод, 274 

и сохраняющая группировка, 279 
зиЪ(), метод, 244, 257 
обратные ссылки, 248 
импортирование, 162 
параметры регулярных выражений, 

174 

КЕАЬЬазіс, язык программирования, 151 

Ке&ех, класс (.КЕТ) 

ІзМа1сЬ(), метод, 184 
МаЪсЬезО, метод, 215 
Кер1асе(), метод, 240, 253, 254 
обратные ссылки, 247 
8рШ(), метод, 269 

обратные ссылки, 277 

Ке&Ех, класс (КЕАЬЬазіс), 151 

Ке&ех(), конструктор (.КЕТ), 154, 165 
Ке&ехОрІіопз, перечисление (парамет¬ 
ры регулярных выражений), 170 


ге^ех.іагзоіаѵіогѵік.сот, веб-приложение 
для тестирования регулярных выраже¬ 
ний, 32 

Ке^ехОрІіопз, перечисление, 172, 176 
Сотрііеб, значение, 170 
Ке&Ехр, класс (ЗаѵаЗсгірі) 
ехес(), метод, 209 

обход всех совпадений в цикле, 224 
іпсіех, свойство, 202 
Іазііпсіех, свойство, , 202, 224 
Іеп&іЬ, свойство, 202 
1ез1(), метод, 184 
Ке^ехр, класс (КиЪу) 
сотрі1е(), метод, 169 
пелѵ(), метод, 169, 175 
Ке^Ехр(), конструктор (Заѵа8сгір1), 167 
Ке&ехРІапеі, веб-приложение для тестиро¬ 
вания регулярных выражений, 32 
ге^ехрг, функция, поддержка в проекте К, 
151 

Ке^ехКепатег, приложение, 46 
геріасе, функция, класс 81гіп& 

удаление пробельных символов, 445 
гер1асе(), метод, Заѵа8сгір1 (класс 8Ъгіп&), 
242 

обратные ссылки, 247 
Кер1асе(), метод (.КЕТ), 240, 253, 254 
обратные ссылки, 247 
герІасеАЩ), метод, Заѵа (класс 8ігіп§), 241 
обратные ссылки, 247 
гер1асеЕігзі(), метод, ^ѵа (класс 81гіп&), 
241 

обратные ссылки, 247 
гезе!(), метод, ^ѵа (класс МаЪсЬег), 167,197 
КЕС 3986, стандарт, 543 
КЕС 4180, стандарт, 610 
КиЪу, язык программирования, 147 
библиотека регулярных выражений, 

162 

литералы регулярных выражений, 159 
определение замещающего текста, 25 
параметры регулярных выражений, 
175, 178 

поддержка регулярных выражений, 22 
создание объектов регулярных выраже¬ 
ний, 169 

функции регулярных выражений, 147 

$ 

з///, оператор (Регі), 243 
/е, модификатор, 257 
обратные ссылки, 247 
\з, метасимвол, 344, 345 

как пробельный символ, 60 
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\8, метасимвол, 304, 344 
8са1а, язык программирования, 151 
зсаІа.иШ.таІсЬіп^, пакет, 151 
зсап(), метод, КиЪу (класс 81гіп&), 226 
<зсгір1>, элементы (НТМЬ), 605 
зеагсЬ(), функция, РуІЪоп (модуль ге), 185, 
198 

8іп&1е1іпе, параметр (Ке&ехОрііопз), 172 
8Іге(), метод, КиЬу (класс МаІсЬБаІа), 204 
зр1і1(), метод, Заѵа (класс 81гіп&), 271 
зр1і1(), метод, ЗаѵаЗсгірі (класс 81гіп^), 272 
8рН1(), метод, .КЕТ, 269 
обратные ссылки, 277 
зрИ1(), метод, РуІЪоп (модуль ге), 274 
и сохраняющая группировка, 279 
зр1іі(), метод, КиЬу (класс 81гіп&), 274 
и сохраняющая группировка, 280 
зрИ1(), метод, ХКе&Ехр (класс ХКе^Ехр), 
272 

8рШ(), функция (Регі), 273 

и сохраняющая группировка, 279 
з1аг1(), метод, Заѵа (класс МаІсЬег), 202, 

209 

зЪагі(), метод, РуІЬоп (класс МаІсЬОЬіесІ), 
203 

81гіп§, класс Уаѵа) 

герІасеАЩ), метод, 241 
обратные ссылки, 247 
гер1асеЕігз1(), метод, 241 
обратные ссылки, 247 
8ІГІП&, класс (ЗаѵаЗсгірі) 
таісЬ(), метод, 197, 216 
гер1асе(), метод, 242 

обратные ссылки, 247 
геріасе, функция, класс 81гіп& 

удаление пробельных символов, 445 
зр1іі(), метод, 272 
ЗЪгіп^, класс (КиЬу) 

&зиЪ(), метод, 244, 257 
обратные ссылки, 248 
зсап(), метод, 226 
зр1і1(), метод, 274 

и сохраняющая группировка, 280 
з1г1еп(), функция, 203 
<зіу1е>, элементы (НТМЬ), 605 
зиЬ, функция, поддержка в проекте К, 151 
зиЪ(), метод, РуіЬоп (модуль ге), 25, 244, 
257 

обратные ссылки, 248 
Зузіет.ТехІ.Ке^иІагЕхргеззіопз.Ке^ех, 
класс, 165 

Т 

<1аЫе>, тег, добавление атрибутов, 658 


1ез1(), метод (Заѵа8сгір1), 184 
ТРегІКе&Ех, компонент, 149 

I) 

\и, метасимвол для представления кодовых 
пунктов Юникода 
в строках Заѵа, 155 
ІШС, пути, 586, 591, 595 
ІШІСОБЕ (или И), флаг, 59, 341 
ІІШСОБЕСА8Е, константа (Заѵа), 173 
ипщ, утилита (ІШІХ), 433 
ІШІХ_ЬШЕ8, константа (Заѵа), 176 
ІІКЬ, адреса 

извлечение имени пользователя, 548 
извлечение имени хоста, 551 
извлечение номера порта, 553 
извлечение пути, 556 
извлечение строки запроса, 560 
извлечение схемы, 546 
извлечение фрагмента, 561 
поиск в тексте, 529 

заключенных в кавычки, 532 
заключенных в скобки, 533 
проверка, 525 

универсальные, проверка, 540 

V 

Ѵаіие, свойство, .ЫЕТ (класс МаісЪ), 196 
ѴВ.ЫЕТ, язык программирования, 145, 151 
импортирование библиотеки регуляр¬ 
ных выражений, 161 
литералы регулярных выражений, 155 
создание объектов регулярных выраже¬ 
ний, 165 

Ѵізиаі Вазіс 6, язык программирования, 
151 

\Л/ 

\лѵ, метасимвол, символ слова, 59, 73, 304, 
497 

ограничение числа слов, 345 
\\ЛГ, метасимвол, 59, 73 

ограничение числа слов, 345 
ЛѴіпсіолѵз Стер, приложение, 45 

X 

ХМЬ 1.0, спецификация, 640, 641, 643 
ХМЬ 1.1, спецификация, 640, 641, 645 
ХКе&Ехр, библиотека 
импортирование, 161 
литералы регулярных выражений, 156 
определение замещающего текста, 24 
параметры регулярных выражений, 
173, 176 
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поддержка регулярных выражений, 20, 
146 

создание объектов регулярных выраже¬ 
ний, 167 

ХКе&Ехр, класс (ХКе^Ехр) 
ехес, метод, 225 
ІогЕасЬ, метод, 225 
8рШ(), метод, 272 

г 

\ 2 , якорный метасимвол, 66, 67 

\2, якорный метасимвол, 66, 67, 69, 306 

А 

алгоритм Луна, 392 

алфавитно-цифровые символы, ограниче¬ 
ние ввода, 338 
алфавиты Юникода, 76, 84 

перечисление всех символов, 88 
атомарная группировка, 114, 116, 348 
в сопоставлении со словами из списка, 
495 

атомарность опережающей и ретроспек¬ 
тивной проверок, 123, 353, 429 
атрибуты (языки разметки), 605 
белые списки, 638 
поиск определенных атрибутов, 653 

Б 

белые списки, 638 

бесконечная длина совпадения с ретро¬ 
спективной проверкой, 417 
бесконечное число повторений, 105 
библиотеки регулярных выражений, 
импортирование, 160 
блоки Юникода, 76, 80 

перечисление всех символов, 88 
буквы устройств, извлечение из путей 
в АѴіпсіолѵз, 594 

В 

ведущие нули, удаление, 465 
ведущие пробельные символы, удаление, 
442 

вещественные числа, 479 

добавление разделителей групп 
разрядов, 484 

вложенные квантификаторы, 665 
вложенные символьные классы, 61 
возвраты, 108 

бесполезные, устранение, 111 
и квантификатор +, 507 
катастрофические, 116 
управление, 623 


восьмеричные числа, поиск, 463 
время в традиционных форматах, провер¬ 
ка, 327 

вставка контекста совпадения в замещаю¬ 
щий текст, 142 

вставка совпадения с регулярным выраже¬ 
нием в замещающий текст, 136 
вставка части совпадения с регулярным 
выражением в замещающий текст, 138 
встроенные документы (Ьеге сіоситепіз), 
514 

извлечение из исходного кода, 514 
выбор, поиск слов из списка, 403 
выделение лексем, 234 

Г 

гиперссылки, включение адресов ИКЬ, 536 
границы слова, 71, 329, 497 
при поиске чисел, 457 
сопоставление в символьных классах, 
60 

графемы Юникода, 76, 85 
группировка, 92 

атомарная группировка, 114, 116, 348 
и сохранение, 92 
именованные сохранения, 140 
имитация ретроспективной проверки, 
126 

повторение групп, 106 
проверка соседних символов, 118, 344, 
402 

проверка условия, 127 
пустые обратные ссылки, 425 
ссылки на несуществующие группы, 
140 

д 

двоичные числа, поиск, 462 
декодирование мнемоник ХМЬ, 650 
десятичные числа 
поиск, 464 

преобразование римских чисел, 492 
диакритические знаки, 86 
диалекты определения замещающего 
текста, 23 

диалекты регулярных выражений, 19,148 
диапазоны внутри символьных классов, 57 
ДКА, механизм регулярных выражений, 
472 

длина совпадения, определение, 199 
длина строки, проверка, 342 
доменные имена, проверка, 562 
дубликаты строк, удаление, 433 
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европейские регистрационные номера 
плательщиков НДС, проверка, 393 
единственная строка (зіп^іе Ііпе), режим, 
63 


завершающие пробельные символы, 
удаление, 442 

замена всех совпадений, 237 
замена совпадений с повторным использо¬ 
ванием частей совпадений, 245 
замещающий текст 

вставка контекста совпадения, 142 
вставка совпадения с регулярным 
выражением, 136 

вставка части совпадения с регулярным 
выражением, 138 

сгенерированный в программном коде, 
251 

экранирование символов, 134 
замещение всех совпадений внутри 
совпадений с другим регулярным 
выражением, 258 

замещение всех совпадений между 
совпадениями с другим регулярным 
выражением, 260 
записи, в файлах С8Ѵ, 610 
захватывающие квантификаторы, 111 
знаки пунктуации 

категория Юникода, 79 
значения, разделенные запятыми (Сотта- 
Зерагаіеб Ѵаіиез, С8Ѵ), 609 
извлечение полей из определенного 
столбца, 677 

изменение разделителя, 672 

И 

идентификатор пространства имен 
(Кашезрасе ИепІШег, ЫШ), 539 
идентификаторы, извлечение из исходного 
кода, 498 

извлечение из исходного кода 
всех комментариев, 504 
встроенных документов, 514 
идентификаторов, 498 
ключевых слов, 495 

литералов регулярных выражений, 511 
многострочных комментариев, 502 
однострочных комментариев, 502 
операторов, 500 
строк, 505 

с экранированными символами, 509 
числовых констант, 499 


извлечение списка всех совпадений, 213 
извлечение текста совпадения, 192 
извлечение части совпавшего текста, 205 
изменение разделителя, используемого 
в файлах С8Ѵ, 672 
имена, в языке разметки ХМЬ, 609 
сопоставление, 639 
имена папок, извлечение из путей 
в АѴіпсіоѵѵз, 596 
имена файлов 

извлечение из путей в АѴіпсіодѵз, 599 
удаление недопустимых символов, 601 
имена, форматирование, 373 
именованное сохранение, 99, 211, 248 
группы с одинаковыми именами 
(.ЫЕТ), 326 

именованные обратные ссылки, 101 
именованные сохранения, 140 
имитация ретроспективной проверки, 416, 
418 

импортирование библиотеки регулярных 
выражений, 160 

имя пользователя, извлечение из адреса 
ИНЬ, 548 

имя сервера, извлечение из путей 
в АѴішіолѵз, 595 

имя хоста, извлечение из адреса ШИ., 551 
инструменты для работы с регулярными 
выражениями, 25 
Ехргеззо, 39 
&гер, 44 

туге^ехр.сош, 37 
№е&ех, 35 
Ке^ехВисМу, 26 
ге^ех.іагзоіаѵіогѵік.сот, 32 
Ке&ехМа^іс, 30 
Ке^ехРаІ, 29 
Ке&ехРІапеі, 32 
КиЬиІаг, 36 
8БЬ Ке&ех Еиггег, 42 
ТЬе Ке^иіаіог, 40 

популярные текстовые редакторы, 47 
интервальный квантификатор, 345 
история термина «регулярное выражение», 
17 

исходные тексты, литералы регулярных 
выражений, 152 

К 

катастрофические возвраты, 116, 507 
категории Юникода, 76, 78 
квантификаторы, 310 

бесконечного числа повторений, 105 
вложенные, 665 
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переменного числа повторений, 104 
фиксированного числа повторений, 104 
ключевые слова, извлечение из исходного 
кода, 495 

кодовые пункты, которым не присвоены 
символы (Юникод), 79 
кодовые пункты Юникода, 75, 77 
блоки, 80 

комбинированные знаки, 85 
комбинированный формат файлов журна¬ 
лов (СотЫпеб Ьо& Гогтаі), 520 
комментарии 
в НТМЬ, 606 
вХМЬ 

поиск слов, 667 
проверка, 663 
удаление, 662 

все, извлечение из исходного кода, 504 
в регулярных выражениях, 131 
в файлах ШІ, 611 

многострочные, извлечение из исходно¬ 
го кода, 502 

однострочные, извлечение из исходного 
кода, 502 

компактная форма записи (ІРѵб), 572, 580 
смешанная, 574, 576, 583, 584 
конечная длина совпадения с ретроспек¬ 
тивной проверкой, 417 
конструкция выбора, поиск чисел 
в определенном диапазоне, 470 
контекст совпадения,142 
контрольная сумма І8ВК-10, 364 
контрольная сумма І8ВМ-13, 365 

Л 

левый контекст, 143 
литералы регулярных выражений 
в исходных текстах, 152 
извлечение из исходного кода, 511 
литеральный текст, сопоставление, 50 
Луна, алгоритм, 392 

М 

максимальное число повторений, 107 
максимальные квантификаторы, 107 

устранение бесполезных возвратов, 111 
международные телефонные номера, 
проверка, 314 
метасимволы, 51 

внутри символьных классов, 57 
экранирование, 448 

механизмы, управляемые регулярными 
выражениями, 90 

механизмы, управляемые текстом, 90 


минимальное число повторений, 107 
минимальные квантификаторы, 107, 108 
устранение бесполезных возвратов, 111 
мнемоники,606, 647 
декодирование, 650 

мнемонические ссылки на символы, 606, 
647 

многострочный (тиШІіпе) режим, 69 
многострочный текст 

проверка числа строк, 348 
модификаторы режима, используемые 
с несохраняющими группами, 95 

Н 

негативная опережающая проверка, 411, 
413 

негативная ретроспективная проверка, 415 
недействительные ссылки, сообщения 
в файле журнала веб-сервера, 521 
неотображаемые символы, 
представление в РуІЬоп, 159 
несохраняющая группировка, 499 
несохраняющие группы, 94 
нечувствительность к регистру символов, 
режим, установка, 172 
НКА, механизм регулярных выражений, 
472 

номера кредитных карт, проверка, 387 
номера социального страхования, 
проверка, 356 

нули, удаление ведущих, 465 

О 

обобщенный формат файлов журналов 
(Соттоп Ьо& Гогтаі), 516 
обратные ссылки, 96 
именованные, 99, 101 
использование пустых обратных 
ссылок, 425 

на несуществующие группы, 140 
повторное использование частей 
совпадений,245 
поиск повторяющихся слов, 429 
обход всех совпадений в цикле, 219 
объединение символьных классов, 61 
объекты регулярных выражений, созда¬ 
ние, 162 

объявление типа документа (НТМЬ), 606 
ограничение числа непробельных симво¬ 
лов, 344 

ограничение числа слов, 345 
ограничение числа строк в тексте, 348 
оператор выбора, 90 
оператор подстановки (Регі), 157 
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оператор сопоставления с шаблоном (Регі), 
157 

операторы, извлечение из исходного кода, 
500 

опережающая проверка, 119, 344 
негативная, 411, 413 
отрицательная, 120 
положительная, 119 

определение позиции вставки разделителя, 
485 

определение позиции и длины совпадения, 
199 

относительные пути в ДѴіпсіоѵѵз, 590, 592 
отрицание внутри символьных классов, 57 
отрицательная опережающая проверка, 

120 

отрицательная ретроспективная проверка, 
120 

п 

параметры, в файлах ШІ, 611 
параметры регулярных выражений, 
установка, 171 

пароли, проверка сложности, 377 

запрет появления трех и более идентич¬ 
ных символов, следующих подряд, 
379 

любые алфавитные символы Юникода 
в верхнем регистре, 378 
любые алфавитные символы Юникода 
в нижнем регистре, 378 
один или более алфавитных символов 
в верхнем регистре, 378 
один или более алфавитных символов 
в нижнем регистре, 378 
один или более специальных символов, 
379 

одна или более цифр, 379 
пример решения на Заѵа8сгір1 
простое решение, 379 
с определением оценки надежности 
пароля, 381 

с подсчетом числа удовлетворяемых 
требований, 380 

проверка нескольких требований 
в одном регулярном выражении, 385 
только видимые символы А8СІІ 
и пробелы, 378 
парсер, 284 

парсинг текста, 234, 284 
первое вхождение строки, сохранение, 434, 
437 

переменное число повторений, 104 


пересечение символьных классов, 61 
повторение при сопоставлении 

минимальное и максимальное число 
повторений, 107 

повторяющиеся части регулярного 
выражения, 103 

предотвращение бесконтрольных 
повторений, 114 

повторное использование частей совпаде¬ 
ний, 245 

повторяющиеся пробельные символы, 
удаление, 447 

повторяющиеся слова, поиск, 429 
позитивная опережающая проверка 

поиск слов на любом расстоянии друг 
от друга, 428 

позиция совпадения, определение, 199 
поиск, 441 

адресов ШИ. в тексте, 529 

заключенных в кавычки, 532 
заключенных в скобки, 533 
адресов, содержащих номер почтового 
ящика, 371 

определенных атрибутов в тегах ХМЬ, 
653 

построчный, 280 
слов, 400 

близко расположенных, 421 
в ХМЬ-подобных комментариях, 

667 

за которыми не следует указанное 
слово, 413 
из списка, 403 

которым не предшествует опреде¬ 
ленное слово, 415 

любых, за исключением некоторых, 
411 

повторяющихся, 429 
похожих, 406 
строк 

не содержащих определенное слово, 
441 

повторяющихся, 433 
совпадение со всей строкой, 438, 441 
содержащих определенное слово, 
438 

тегов ХМЬ, 612 
чисел 

восьмеричных, 463 
двоичных, 462 
десятичных, 464 
целых, 454 

шестнадцатеричных, 458 
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поиск с заменой 

вставка текстового литерала в заме¬ 
щающий текст, 133 
замена всех совпадений, 237 
замена совпадений фрагментами, 
сгенерированными в программном 
коде, 251 

замена специальных символов НТМЬ 
мнемоническими ссылками, 647 
замещение всех совпадений внутри 
совпадений с другим регулярным 
выражением, 258 
замещение всех совпадений между 
совпадениями с другим регулярным 
выражением, 260 
повторное использование частей 
совпадений, 245 

с помощью регулярных выражений, 22 
тегов в языках разметки, 631 
положительная опережающая проверка, 
119 

положительная ретроспективная провер¬ 
ка, 118 

поля, в файлах С8Ѵ, 610 
извлечение, 677 

порты, извлечение из адреса ІШЬ, 553 
последнее вхождение строки, сохранение, 
434, 436 

построчный поиск, 280 
похожие слова, поиск, 406 
почтовые индексы 

Великобритании, проверка, 369 
Канады, проверка, 368 
США, проверка, 367 
правый контекст, 143 

предотвращение бесконтрольных повторе¬ 
ний, 114 

предотвращение добавления запятых 
после десятичной точки, 488 
преобразование имен из одного формата 
в другой, 373 
пробельные символы 

в режиме свободного форматирования, 
132 

категория Юникода, 78 
повторяющиеся, удаление, 447 
сопоставление в символьных классах, 
60 

удаление ведущих и завершающих 
пробельных символов в строках, 442 
удаление из европейских регистрацион¬ 
ных номеров плательщиков НДС, 

394, 396 


удаление из номера кредитной карты, 
387, 390 
проверка, 309 

адресов ІШЬ, 525, 540 
адресов электронной почты, 301 
времени в традиционных форматах, 327 
дат в традиционных форматах, 316 
дат и времени в формате 180 8601, 330 
доменных имен, 562 
европейских регистрационных номеров 
плательщиков НДС, 393 
комментариев ХМЬ, 663 
путей в "ѴѴіпбо^з, 585 
строк ШШ, 537 
телефонных номеров, 308 
международных, 314 
проверка ввода 

номеров І8ВМ, 358 
номеров кредитных карт, 387, 392 
номеров социального страхования, 356 
ограничение возможности ввода 
алфавитно-цифровыми символами, 
338 

ограничение возможности ввода 
символами АИ8І, 340 
ограничение длины строки текста, 342 
ограничение числа строк в тексте, 348 
почтовых индексов, 367 
сложность пароля, 377 
утвердительных ответов, 354 
проверка возможности совпадения 
в пределах испытуемой строки, 179 
проверка полученных совпадений 
в программном коде, 227 
проверка с нулевой длиной совпадения, 119 
проверка совпадения со всей испытуемой 
строкой, 186 

проверка соседних символов, 118, 344, 402 
отрицательная, 120 
проверка условия, 130 
проверка условия, при сопоставлении, 127 
простой текст, преобразование в НТМЬ, 

646 

пустые обратные ссылки, 425 
пути в файловой системе (\Ѵішіолѵ8) 
выделение элементов, 589 
извлечение буквы устройства, 594 
извлечение имени сервера, 595 
извлечение имен папок, 596 
извлечение имен файлов, 599 
извлечение расширений файлов, 600 
проверка, 585 

удаление недопустимых символов, 601 
пути, извлечение из адреса ЬГКЬ, 556 
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разбиение строки, 266 

с сохранением совпадений, 275 
разделители в файлах С8Ѵ, изменение, 672 
разделители строк, 352 
разделы, в файлах ШІ, 611 
разность символьных классов, 60, 61 
разрывы строк в документах НТМЬ, 647 
расширения (файлов), извлечение из путей 
в ДѴіпс1о\ѵ8, 600 

расширяемый протокол представления 
информации (ЕхІепзіЫе Ргоѵізіопіп^ 
Ргоіосоі, ЕРР), 316 

расширяемый язык разметки (ЕхІепзіЫе 
Магкир Ьап^иа&е, ХМЬ), 608 
декодирование мнемоник, 650 
добавление атрибутов в теги <1аЫе>, 

658 

поиск определенных атрибутов, 653 
поиск слов в комментариях, 667 
поиск тегов, 612, 615 
сопоставление с именами, 639 
удаление всех тегов, за исключением 
выбранных, 635 
удаление комментариев, 662 
расширяемый язык разметки гипертекста 
(ЕхІепзіЫе НурегЪехі Магкир Ьап&иа&е, 
ХНТМЬ), 607 

добавление атрибутов в теги <1аЫе>, 
658 

поиск тегов, 612 

удаление всех тегов, за исключением 
выбранных, 635 
регистр символов 

нечувствительность к регистру 
в символьных классах, 60 
нечувствительность к регистру симво¬ 
лов, 304 

поиск без учета регистра символов, 52 
регулярные выражения 
в стиле языка Регі, 18 
литералы, извлечение из исходного 
кода, 511 

экранирование метасимволов, 448 
режим свободного форматирования, 131 
в РуІЬоп, 159 

ретроспективная проверка, 118, 344, 402 
бесконечное и ограниченное повторе¬ 
ние, 513 

имитация ретроспективной проверки, 
416, 418 

имитация с применением сохраняющей 
группировки, 126 


негативная, 415 
отрицательная, 120 
положительная, 118 
римские числа, 490 

С 

свободное форматирование, режим, 131 
установка, 172 

«символам Л и $ соответствуют границы 
строк», режим, 171 

символ торговой марки, сопоставление, 74 
символы АЫ8І, ограничение ввода, 340 
символы 180-8859-1, ограничение ввода, 
340 

символы АѴіпс1оѵѵ 8-1252, ограничение 
ввода, 340 

символы, категории Юникода, 76 
символы слова, 59, 73 
символьные классы, 57, 310 

в режиме свободного форматирования, 
131 

метасимволы Юникода, 87 
нечувствительность к регистру симво¬ 
лов, 60 

объединение и пересечение, 61 
разность, 60 
сокращения, 58 
слова 

поиск близко расположенных слов, 421 
поиск в ХМЬ-подобных комментариях, 
667 

поиск любого слова, за которым не 
следует указанное слово, 413 
поиск любого слова, которому не 
предшествует определенное слово, 

415 

поиск любых слов, за исключением 
некоторых, 411 

поиск одного слова из списка, 403 
поиск определенного слова, 400 
поиск повторяющихся слов, 429 
поиск похожих слов, 406 
поиск строк, не содержащих определен¬ 
ное слово, 441 

поиск строк, содержащих определенное 
слово, 438 

сопоставление с целыми словами, 71 
экранирование метасимволов, 448 
сложность пароля, 377 

запрет появления трех и более идентич¬ 
ных символов, следующих подряд, 
379 

любые алфавитные символы Юникода 
в верхнем регистре, 378 
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любые алфавитные символы Юникода 
в нижнем регистре, 378 
один или более алфавитных символов 
в верхнем регистре, 378 
один или более алфавитных символов 
в нижнем регистре, 378 
один или более специальных символов, 
379 

одна или более цифр, 379 
пример решения на ЗаѵаЗсгірі 
простое решение, 379 
с определением оценки надежности 
пароля, 381 

с подсчетом числа удовлетворяемых 
требований, 380 

проверка нескольких требований 
в одном регулярном выражении, 385 
только видимые символы А8СІІ 
и пробелы, 378 

смешанная форма записи (ІРѵб), 570, 576, 
580 

компактная, 574, 576, 583, 584 
совпадения внутри другого совпадения, 

231 

совпадения нулевой длины, 69 
создание объектов регулярных выраже¬ 
ний, 162 

сокращенные формы записи символьных 
классов, 58 
сопоставление, 441 

без учета регистра символов, 52, 304 
в начале и/или в конце строки, 65 
внутри совпадений с другим регуляр¬ 
ным выражением, 258 
вставка контекста совпадения 
в замещающий текст, 142 
замена совпадений с повторным исполь¬ 
зованием частей совпадений, 245 
обход всех совпадений в цикле, 219 
поиск совпадения внутри другого 
совпадения,231 
проверка условия, 127 
с адресами ІРѵ4, 565 
с адресами ІРѵб, 569 
с заголовком раздела в файле ШІ, 681 
с именами ХМЬ, 639 
с литеральным текстом, 50 
с любым символом, 62 
с одной из нескольких альтернатив, 90 
с одним символом из нескольких, 56 
с парами имя-значение в файле ШІ, 684 
с повторением 

минимальное и максимальное 
число повторений, 107 


повторяющиеся части регулярного 
выражения, 103 

предотвращение бесконтрольных 
повторений, 114 
с разделом в файле ШІ, 683 
с ранее совпавшим текстом, 96 
с тегами в языках разметки, 612 
с целыми словами, 71 
сортировка строк,433,435 
сохраняющая группировка, 92, 499 

извлечение информации о совпадении, 
205 

именованное сохранение, 99, 140, 211, 
248 

группы с одинаковыми именами 
(ШЕТ), 326 

имитация ретроспективной проверки, 
126 

использование пустых обратных 
ссылок, 425 

повторное использование частей 
совпадений, 245 

повторный поиск соответствия с ранее 
совпавшим текстом, 96 
поиск повторяющихся слов, 429 
проверка условия, 127 
ссылки на несуществующие группы, 
140 

ссылки, недействительные, сообщения 
в файле журнала веб-сервера, 521 
стандартная форма записи (ІРѵб), 569 
строка из определенного пространства 
имен (Иатезрасе ЗресШс 8ігіп&, N88), 
539 

строки 

в апострофах (РНР), 157 
в кавычках 
С#, 155 
Заѵа, 155 
Регі, 157 
РНР, 156 
ѴВШЕТ, 155 

в тройных кавычках (РуіЬоп), 158 
извлечение из исходного кода, 505, 509 
проверка адресов ИКЬ, 525 
проверка длины ввода, 342 
проверка строк ШШ, 537 
разбиение, 266 

экранирование метасимволов, 448 
строки запросов, извлечение из адреса 
ІШЬ, 560 
строки текста, 433 

не содержащие определенное слово, 441 
содержащие определенное слово, 438 
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сортировка с целью удаления дублика¬ 
тов, 433,435 

удаление ведущих и завершающих 
пробельных символов, 442 
удаление дубликатов, 433 
удаление повторяющихся пробельных 
символов, 447 

схемы, извлечение из адреса ІЖЬ, 546 
сырые строки (РуІЬоп), 158 

Т 

теги, языки разметки, 605 

добавление атрибутов в теги <1аЫе>, 
658 

замещение одного тега другим, 631 
сопоставление, 612 
удаление всех тегов, за исключением 
выбранных, 635 
телефонные номера 
международные, 314 
проверка, 308 

точка - это все (боі аіі), режим, 63 
точке соответствуют границы строк, 
режим, 63, 171 

У 

удаление 

ведущих нулей, 465 
недопустимых символов из имен 
файлов, 601 

повторяющихся пробельных символов, 
447 

универсальные адреса ІЖЬ, проверка, 540 
унифицированное имя ресурса (ІІпі:Гогт 
Кезоигсе Ыате, ШШ), проверка, 537 
управление возвратами, 623 
управляющие символы 
категория Юникода, 79 
установка параметров регулярных выра¬ 
жений, 171 

утвердительные ответы, 354 

ф 

файлы инициализации (ШІ), 611 
фиксированная длина совпадения 
с ретроспективной проверкой, 417 
фиксированное число повторений, 104 
формат даты и времени 180 8601, 330 
форматирование 
имен, 373 
проверка времени 

в традиционных форматах, 327 
в формате 180 8601, 330 


проверка дат, 316 

в формате 180 8601, 330 
телефонных номеров, 308 
форматы дат, проверка, 316 
фрагмент, извлечение из адреса ІЖЬ, 561 

ц 

целые числа 

в определенном диапазоне, поиск, 467, 
474 

добавление разделителей групп 
разрядов, 484 

поиск и идентификация, 454 
с разделителями групп разрядов, 477, 
483 

удаление ведущих нулей, 465 
цифры (числа), 456 

категория Юникода, 79 
соответствия в символьных классах, 58 

Ч 

числа 

ІРѵ4, адреса, сопоставление, 565 
ІРѵб, адреса, сопоставление, 569 
вещественные, 479 
восьмеричные, поиск, 463 
двоичные, поиск, 462 
десятичные, поиск, 464 
добавление разделителей групп 
разрядов, 484 

европейские регистрационные номера 
плательщиков НДС, проверка, 393 
номера І8ВИ, проверка, 358 
номера кредитных карт, проверка, 387 
проверка номеров социального страхо¬ 
вания, 356 
римские, 490 

с разделителями групп разрядов, 483 
удаление ведущих нулей, 465 
целые 

в определенном диапазоне, поиск, 
467 

поиск и идентификация, 454 
с разделителями групп разрядов, 
477 

шестнадцатеричные 

в определенном диапазоне, поиск, 
474 

поиск, 458 

числовые константы, извлечение из 
исходного кода, 499 
числовые ссылки на символы, 606 
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Ш 

шестнадцатеричные числа, поиск, 458 
в определенном диапазоне, 474 


экранирование, 51 
блока, 51, 453 

внутри символьных классов, 57 
как и когда, 449 

символы в замещающем тексте, 134 
электронная почта, проверка адресов, 301 
элементы, языки разметки, 605 

Ю 

Юникод, 74 

Я 

язык разметки гипертекста (Нурегіехі 
Магкир Ьап^иа^е, НТМЬ), 604 
добавление атрибутов в теги <1аЫе>, 
658 

добавление тегов <р> в простой текст, 
646 

замещение тега <Ъ> тегом <з!гоп&>, 

631 
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Том ДЕМАРКО и Тимоти ЛИСТЕР 

Человеческий фактор: 
успешные проекты и команды, 3-е издание 

288 стр., книга в продаже 

Немногие книги о компьютерах оказали такое заметное влия¬ 
ние на управление разработкой программного обеспечения, как 
«Человеческий фактор». Уникальное озарение этой книги, долгие 
годы сохранявшей свое положение в списке бестселлеров: самые 
сложные проблемы разработки программного обеспечения носят 
не технический, но социальный характер. Эти человеческие про¬ 
блемы решать не просто, однако, решив их, вы увеличите шансы на 
успех до верхнего предела. 

В третьем издании появилось шесть новых глав и внесены много¬ 
численные правки в основной текст, так что теперь книга лучше 
соответствует современным средам разработки и современным про¬ 
блемам. В частности, книга теперь освещает патологии лидерства, 
которые раньше за патологии не считались, эволюционирующую 
культуру собраний, а еще растущее понимание того, что некоторые 
наши инструменты служат скорее якорями, а не двигателями. 

Каждый, кому необходимо управлять проектом по разработке 
ПО или целой организацией такого рода, найдет на страницах этой 
книги множество ценных советов. 



Ричард СТИВЕНС, Стивен РАГО 

ІІІУІХ. Профессиональное 
программирование, 3-е издание 

1104 стр., книга в продаже 

Издание представляет собой подробнейшее справочное руковод¬ 
ство для любого профессионального программиста, работающего 
с ШІХ. Стив Раго, коллега Рича Стивенса, вновь полностью обновил 
классический труд, сохранив точность и стиль оригинала. Новое, 
третье, издание охватывает современные ведущие платформы, от¬ 
ражает новейшие технические достижения и передовую практику 
и соответствует 4-й версии 5іп§1е ШІХ ЗресШсаНоп. 

Помимо основ (файлы, каталоги и процессы) рассматриваются 
более сложные темы, такие как обработка сигналов и терминаль¬ 
ный ввод/вывод, многопоточная модель выполнения и межпро¬ 
цессное взаимодействие с применением сокетов. Третье издание 
охватывает более 70 новых интерфейсов, включая функции Р05ІХ 
асинхронного ввода/вывода, циклические блокировки, барьеры 
и семафоры Р05ІХ. Примеры протестированы на 4-х наиболее по¬ 
пулярных платформах: Зоіагіз 10, Мае 05 X 10.6.8 фапѵіп 10.8.0), 
РгееВЗЭ 8.0 и ІІЪипПі 12.04 (основана на ядре Ілпих 3.2). Описа¬ 
ния более 400 системных вызовов и функций сопровождаются 
короткими примерами законченных программ, которые наглядно 
демонстрируют порядок их применения, входные аргументы и воз¬ 
вращаемые значения. 





Том КРИСТИАНСЕН, брайан д фой, 

Ларри УОЛЛ и Джон ОРВАНТ 

Программирование на РегІ, 4-е издание 

1048 стр., книга в продаже 

Четвертое издание этой книги ждали в России и программисты, 
и системные администраторы. И вот обновление описания языка 
РегІ, продолжавшего активно развиваться в течение последних 
пяти лет. На этот раз в «Кэмэл» обсуждается текущая версия РегІ 5.14 
и дается обзор некоторых особенностей готовящейся к выходу 
версии РегІ 5.16. 

Все большую значимость в обработке текстов приобретает 
Юникод, а РегІ предлагает лучшую и самую безболезненную под¬ 
держку этого стандарта, тесно интегрируя Юникод во все сферы, 
в том числе в такой популярный механизм языка РегІ, как регуляр¬ 
ные выражения. И Юникоду, и регулярным выражениям уделено 
много внимания в книге. Четвертое издание охватывает такие 
важные особенности языка РегІ, как новые ключевые слова и син¬ 
таксические конструкции, уровни ввода/вывода и кодировки, но¬ 
вые езсаре-последовательности, поддержка стандарта ІІпісосіе 6.0, 
групповые графемы и свойства символов Юникода, именованные 
сохраняющие группы в регулярных выражениях, рекурсивные 
и грамматические шаблоны, современные передовые приемы про¬ 
граммирования. Справочник по языку РегІ перед вами! 



•••••••• 


Джеффри ФРИДЛ 

Регулярные выражения, 

3-е издание 

608 стр., книга в продаже 

Эта книга откроет перед вами секрет высокой производительности. 
Тщательно продуманные регулярные выражения помогут избежать 
долгих часов утомительной работы и решить свои проблемы за 
15 секунд. Ставшие стандартной возможностью во многих языках 
программирования и популярных программных продуктах, вклю¬ 
чая РегІ, РНР, )аѵа, РуШоп, КиЬу, Му8(^Ь, ѴВ.ЫЕТ, С* (и другие языки 
платформы .ЙЕТ), регулярные выражения позволят вам автомати¬ 
зировать сложную и тонкую обработку текста. 

Написанное простым и доступным языком, это издание позволит 
программистам легко разобраться в столь сложной теме. Рассма¬ 
тривается принцип действия механизма регулярных выражений, 
сравниваются функциональные возможности различных языков 
программирования и инструментальных средств, подробно обсуж¬ 
дается оптимизация, которая дает основную экономию времени! 
Вы научитесь правильно конструировать регулярные выражения 
для самых разных ситуаций, а большое число сложных примеров 
даст возможность сразу же использовать предлагаемые ответы для 
выработки элегантных и экономичных практических решений 
широкого круга проблем. 
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Регулярные выражения. Сборник рецептов 

Отбросьте все свои догадки о регулярных выражениях. Эта книга содержит все необхо¬ 
димое для решения широкого спектра практических задач в виде более 140 проверен¬ 
ных рецептов. С ее помощью начинающие смогут обрести базовые навыки и освоить 
основные инструменты, а программисты и опытные пользователи найдут в ней мно¬ 
жество важных мелочей. Каждый рецепт содержит шаблоны, пригодные для немедлен¬ 
ного использования. 

Второе обновленное издание охватывает диалекты регулярных выражений, используе¬ 
мые в языках программирования С # , Іаѵа, ІаѵаЗсгірі:, Регі, РНР, РуШоп, КиЬу и ѴВ.ИЕТ. Вы 
познакомитесь с новыми приемами, научитесь избегать ловушек в разных диалектах 
и благодаря огромной библиотеке готовых решений сможете сэкономить свое время.. 

С помощью этой книги вы: 

• Усвоите основы регулярных выражений благодаря подробному учебному 
руководству 

• Научитесь использовать регулярные выражения в любом из охватываемых 
языков программирования 

• Познакомитесь с отличиями диалектов регулярных выражений в разных 
языках программирования 

• Узнаете, как проверять и форматировать ввод пользователя 

• Овладеете приемами поиска и обработки слов, специальных символов и строк текста 

• Научитесь выявлять целые и вещественные числа в различных форматах представления 

• Узнаете приемы парсинга исходного программного кода и файлов журналов 

• Найдете решения по использованию регулярных выражений для работы 
с адресами ОКЕ, путями и ІР-адресами 

• Овладеете приемами работы с разметкой НТМЬ, ХМІ. и с форматами обмена данными 

• Познакомитесь с малоизвестными особенностями регулярных выражений 
и приемами их использования 

«Регулярные выражения - неустаревающая технология, и книга «Регулярные выра¬ 
жения. Сборник рецептов » еще долгие годы будет оставаться надежным источни¬ 
ком информации и вдохновения .» 

Бен Найдел (Веп Ыайеі), главный инженер-программист в Ерісепгег СошиШп§ 
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